Méthodes de prédiction structurée pour l’analyse sémantique
Auteur / Autrice : | Alban Petit |
Direction : | François Yvon, Caio Corro |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 09/02/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) |
référent : Faculté des sciences d'Orsay | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....) | |
Jury : | Président / Présidente : Vincent Guigue |
Examinateurs / Examinatrices : Maxime Amblard, Marie-Hélène Candito, Pascal Denis, Laura Kallmeyer | |
Rapporteurs / Rapporteuses : Maxime Amblard, Marie-Hélène Candito |
Résumé
L'analyse sémantique est une tâche qui consiste à produire une représentation formelle manipulable par un ordinateur à partir d'un énoncé en langage naturel. Il s'agit d'une tâche majeure dans le traitement automatique des langues avec plusieurs applications comme le développement de systèmes de question-réponse ou la génération de code entre autres. Ces dernières années, les approches fondées sur les réseaux de neurones, et en particulier les architectures séquence-à-séquence, ont démontré de très bonnes performances pour cette tâche. Cependant, plusieurs travaux ont mis en avant les limites de ces analyseurs sémantiques sur des exemples hors distribution. En particulier, ils échouent lorsque la généralisation compositionnelle est requise. Il est donc essentiel de développer des analyseurs sémantiques qui possèdent de meilleures capacités de composition.La représentation du contenu sémantique est une autre préoccupation lorsque l'on aborde l'analyse sémantique. Comme différentes structures syntaxiques peuvent être utilisées pour représenter le même contenu sémantique, il est souhaitable d'utiliser des structures qui peuvent à la fois représenter précisément le contenu sémantique et s'ancrer facilement sur le langage naturel. À ces égards, cette thèse utilise des représentations fondées sur les graphes pour l'analyse sémantique et se concentre sur deux tâches. La première concerne l'entrainement des analyseurs sémantiques fondés sur les graphes. Ils doivent apprendre une correspondance entre les différentes parties du graphe sémantique et l'énoncé en langage naturel. Comme cette information est généralement absente des données d'apprentissage, nous proposons des algorithmes d'apprentissage qui traitent cette correspondance comme une variable latente. La deuxième tâche se concentre sur l'amélioration des capacités de composition des analyseurs sémantiques fondés sur les graphes dans deux contextes différents. Notons que dans la prédiction de graphes, la méthode traditionnelle consiste à prédire d'abord les nœuds, puis les arcs du graphe. Dans le premier contexte, nous supposons que les graphes à prédire sont nécessairement des arborescences et nous proposons un algorithme d'optimisation basé sur le lissage des contraintes et la méthode du graident conditionnel qui permet de prédire l'ensemble du graphe de manière jointe. Dans le second contexte, nous ne faisons aucune hypothèse quant à la nature des graphes sémantiques. Dans ce cas, nous proposons d'introduire une étape intermédiaire de superétiquetage dans l'algorithme d'inférence. Celle-ci va imposer des contraintes supplémentaires sur l'étape de prédiction des arcs. Dans les deux cas, nos contributions peuvent être vues comme l'introduction de contraintes locales supplémentaires pour garantir la validité de la prédiction globale. Expérimentalement, nos contributions améliorent de manière significative les capacités de composition des analyseurs sémantiques fondés sur les graphes et surpassent les approches comparables sur plusieurs jeux de données conçus pour évaluer la généralisation compositionnelle.