Thèse soutenue

Approches neuronales pour la reconstruction de mots historiques

FR  |  
EN
Auteur / Autrice : Clémentine Fourrier
Direction : Laurent RomaryBenoît Sagot
Type : Thèse de doctorat
Discipline(s) : Informatique, mathématique et applications
Date : Soutenance le 26/09/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale de l'École pratique des hautes études (Paris)
Partenaire(s) de recherche : Établissement de préparation de la thèse : École pratique des hautes études (Paris ; 1868-....)
Laboratoire : Orient et Méditerranée (Ivry-sur-Seine, Val de Marne ; 2006-....)
Jury : Président / Présidente : Sylvain Kahane
Examinateurs / Examinatrices : Laurent Romary, Benoît Sagot, Marie-Hélène Candito, Johann-Mattis List, Rachel Bawden, Yves Scherrer, Julia Ive
Rapporteurs / Rapporteuses : Marie-Hélène Candito, Johann-Mattis List

Résumé

FR  |  
EN

En linguistique historique, les cognats sont des mots qui descendent en ligne directe d'un ancêtre commun, leur proto-forme, et qui sont ainsi représentatifs de l'évolution de leurs langues respectives à travers le temps. Comme ils portent en eux l'histoire phonétique des langues auxquelles ils appartiennent, ils permettent aux linguistes de mieux déterminer toutes sortes de relations linguistiques synchroniques et diachroniques (étymologie, phylogénie, correspondances phonétiques). Les cognats de langues apparentées sont liés par des correspondances phonétiques systématiques. Les réseaux de neurones, particulièrement adaptés à l'apprentissage de motifs latents, semblent donc bien un bon outil pour modéliser ces correspondances. Dans cette thèse, nous cherchons donc à étudier méthodiquement l'applicabilité de réseaux de neurones spécifiques (inspirés de la traduction automatique) à la `prédiction de mots historiques', en nous appuyant sur les similitudes entre ces deux tâches. Nous créons tout d'abord un jeu de données artificiel à partir des règles phonétiques et phonotactiques des langues romanes, que nous utilisons pour étudier l'utilisation de nos réseaux en situation controlée, et identifions ainsi sous quelles conditions les réseaux de neurones sont applicables à notre tâche d'intérêt. Nous étendons ensuite notre travail à des données réelles (après avoir mis à jour une base étymologiques pour obtenir d'avantage de données), étudions si nos conclusions précédentes leur sont applicables, puis s'il est possible d'utiliser des techniques d'augmentation des données pour pallier aux manque de ressources de certaines situations. Enfin, nous analysons plus en détail nos meilleurs modèles, les réseaux neuronaux multilingues. Nous confirmons à partir de leurs résultats bruts qu'ils semblent capturer des informations de parenté linguistique et de similarité phonétique, ce qui confirme des travaux antérieurs. Nous découvrons ensuite en les sondant (probing) que les informations qu'ils stockent sont en fait plus complexes : nos modèles multilingues encodent en fait un modèle phonétique de la langue, et apprennent suffisamment d'informations diachroniques latentes pour permettre à des décodeurs de reconstruire la proto-forme (non vue) des langues étudiées aussi bien, voire mieux, que des modèles bilingues entraînés spécifiquement sur cette tâche. Ces informations latentes expliquent probablement le succès des méthodes multilingues dans les travaux précédents.