Thèse soutenue

Plongements de phrases et leurs relations avec les structures de phrases

FR  |  
EN
Auteur / Autrice : Antoine Simoulin
Direction : Benoît Crabbé
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/07/2022
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de linguistique formelle (Paris) (1972-....)
Jury : Président / Présidente : Éric Gaussier
Examinateurs / Examinatrices : Éric Gaussier, Claire Gardent, Rachel Bawden, Loïc Barrault
Rapporteurs / Rapporteuses : Éric Gaussier, Claire Gardent

Résumé

FR  |  
EN

Historiquement, la modélisation du langage humain suppose que les phrases ont une structure symbolique et que cette structure permet d'en calculer le sens par composition. Ces dernières années, les modèles d'apprentissage profond parviennent à traiter automatiquement des tâches sans s'appuyer sur une structure explicite du langage, remettant ainsi en question cette hypothèse fondamentale. Cette thèse cherche ainsi à mieux identifier le rôle de la structure lors de la modélisation du langage par des modèles d'apprentissage profond. Elle se place dans le cadre spécifique de la construction de plongements de phrases---des représentations sémantiques basées sur des vecteurs---par des réseaux de neurones. Dans un premier temps, on étudie l'intégration de biais linguistiques dans les architectures de réseaux neuronaux, pour contraindre leur séquence de composition selon une structure traditionnelle en arbres. Dans un second temps, on relâche ces contraintes pour analyser les structure latentes induites par les réseaux neuronaux. Dans les deux cas, on analyse les propriétés de composition des modèles ainsi que les propriétés sémantiques des plongements. La thèse s'ouvre sur un état de l'art présentant les principales méthodes de représentation du sens des phrases, qu'elles soient symboliques ou basées sur des méthodes d'apprentissage profond. La deuxième partie propose plusieurs expériences introduisant des biais linguistiques dans les architectures des réseaux de neurones pour construire des plongement de phrases. Le premier chapitre combine explicitement plusieurs structures de phrases pour construire des représentations sémantiques. Le deuxième chapitre apprend conjointement des structures symboliques et des représentations vectorielles. Le troisième chapitre introduit un cadre formel pour les transformers selon une structure de graphes. Finalement le quatrième chapitre étudie l'impact de la structure vis à vis de la capacité de généralisation et de composition des modèles. La thèse se termine par une mise en concurrence de ces approches avec des méthodes de passage à l'échelle. On cherche à y discuter les tendances actuelles qui privilégient des modèles plus gros, plus facilement parallélisables et entrainés sur plus de données, aux dépens de modélisations plus fines. Les deux chapitres relatent l'entrainement de larges modèles de traitement automatique du langage et comparent ces approches avec celles développées dans la deuxième partie d'un point de vue qualitatif et quantitatif.