Thèse soutenue

Désambiguïsation lexicale automatique des verbes du français

FR  |  
EN
Auteur / Autrice : Vincent Segonne
Direction : Benoît Crabbé
Type : Thèse de doctorat
Discipline(s) : Linguistique
Date : Soutenance le 16/12/2021
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris ; 2019-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de linguistique formelle (Paris) (1972-....)
Jury : Président / Présidente : Emmanuel Morin
Examinateurs / Examinatrices : Benoît Crabbé, Emmanuel Morin, Philippe Langlais, Marianna Apidianaki, Didier Schwab, Marie-Hélène Candito
Rapporteurs / Rapporteuses : Emmanuel Morin, Philippe Langlais

Résumé

FR  |  
EN

La désambiguïsation lexicale est une tâche du traitement automatique des langues dont l'objectif est de prédire automatiquement le sens des mots en contexte, à partir d'un inventaire de sens prédéfini. La réussite de cette tâche repose en particulier sur l'utilisation de ressources lexicales et de données annotées en sens. Par ailleurs, le récent essor des méthodes d'apprentissage automatique par réseaux de neurones profonds a grandement amélioré les performances des systèmes de désambiguïsation. Dans cette thèse, nous nous concentrons sur la désambiguïsation des verbes du français, une langue qui ne dispose pas ou peu, à priori, de données utilisables pour cette tâche. Pour commencer, nous faisons un état de l'art des principales méthodes neuronales de représentation du contexte ainsi que des méthodes de désambiguïsation. Puis, nous nous intéressons à la question du rôle de la syntaxe pour la désambiguïsation des verbes. Pour cela, nous commençons par étudier en corpus la potentielle corrélation entre le sens et la structure argumentale des verbes. Nous tentons ensuite de voir si la structure argumentale des verbes est encodée dans les représentations contextuelles issues de réseaux de neurones. Nous proposons également un modèle qui apprend des représentations contextuelles étant données des structures syntaxiques de phrases obtenues à priori par un analyseur syntaxique et nous les testons sur la tâche de désambiguïsation. Enfin, dans la dernière partie de cette thèse, nous abordons le problème de la disponibilité des données pour la tâche de désambiguïsation dans une langue autre que l'anglais en prenant le français pour exemple. Après avoir étudié diverses ressources produites automatiquement, nous proposons d'utiliser Wiktionary, une ressource libre et collaborative sur le modèle de Wikipédia, afin de produire FrenchSemEval le premier corpus d'évaluation pour la tâche de désambiguïsation des verbes du français. Nous testons plusieurs systèmes de désambiguïsation sur ce jeu de données et obtenons les tous premiers résultats pour cette tâche.