A Data-driven Approach to Natural Language Processing for Contemporary and Historical French

Pedro Ortiz Suarez

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Une approche basée sur les données pour le traitement automatique du langage naturel en français contemporain et historique

FR |

EN

Auteur / Autrice :	Pedro Ortiz Suarez
Direction :	Laurent Romary, Benoît Sagot
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 27/06/2022
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : Institut national de recherche en informatique et en automatique (France). Centre de recherche de Paris (Paris)
Jury :	Président / Présidente : Francis Bach
	Examinateurs / Examinatrices : Alexander Geyken, Maud Ehrmann
	Rapporteurs / Rapporteuses : Anna Korhonen, Holger Schwenk

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Traitement automatique du langage naturel

Mots clés libres

Modèle de langue

Corpus de pré-entraînement

Traitement automatique des langues

Français historique

Apprentissage par transfert

Résumé

FR |

EN

Depuis plusieurs années, les approches neuronales ont régulièrement amélioré l'état de l'art du traitement automatique des langues (TAL) sur une grande variété de tâches. L'un des principaux facteurs ayant permis ces progrès continus est l'utilisation de techniques d'apprentissage par transfert. Ces méthodes consistent à partir d'un modèle pré-entraîné et à le réutiliser, avec peu ou pas d'entraînement supplémentaire, pour traiter d'autres tâches. Même si ces modèles présentent des avantages évidents, leur principal inconvénient est la quantité de données nécessaire pour les pré-entraîner. Ainsi, le manque de données disponibles à grande échelle a freiné le développement de tels modèles pour le français contemporain et a fortiori pour ses états de langue plus anciens.Cette thèse met l'accent sur le développement de corpus pour le pré-entraînement de telles architectures. Cette approche s'avère extrêmement efficace car nous sommes en mesure d'améliorer l'état de l'art pour un large éventail de tâches de TAL pour le français contemporain et historique, ainsi que pour six autres langues contemporaines. De plus, nous montrons que ces modèles sont extrêmement sensibles à la qualité, à l'hétérogénéité et à l'équilibre des données de pré-entraînement et montrons que ces trois caractéristiques sont de meilleurs prédicteurs de la performance des modèles que la taille des données de pré-entraînement. Nous montrons également que l'importance de la taille des données de pré-entraînement a été surestimée en démontrant à plusieurs reprises que l'on peut pré-entraîner de tels modèles avec des corpus de taille assez modeste.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Une approche basée sur les données pour le traitement automatique du langage naturel en français contemporain et historique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Une approche basée sur les données pour le traitement automatique du langage naturel en français contemporain et historique

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses