Thèse soutenue

Vers des représentations contextualisées de mots
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Diana-Nicoleta Popa
Direction : Éric Gaussier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/09/2019
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble - Analyse de données, Modélisation et Apprentissage automatique [Grenoble]
Entreprise : Xerox Research Centre Europe (Grenoble)
Jury : Président / Présidente : Laurent Besacier
Examinateurs / Examinatrices : Eric Villemonte de la Clergerie, Claire Gardent, Alexandre Allauzen, James Henderson, Julien Perez
Rapporteurs / Rapporteuses : Eric Villemonte de la Clergerie, Claire Gardent

Résumé

FR  |  
EN

Les représentations des mots sont à la base du plupart des systèmes modernes pour le traitement automatique du langage, fournissant des résultats compétitifs. Cependant, d'importantes questions se posent concernant les défis auxquels ils sont confrontés pour faire face aux phénomènes complexes du langage naturel et leur capacité à saisir la variabilité du langage naturel.Pour mieux gérer les phénomènes complexes du langage, de nombreux travaux ont été menées pour affiner les représentations génériques de mots ou pour créer des représentations spécialisées. Bien que cela puisse aider à distinguer la similarité sémantique des autres types de relations sémantiques, il peut ne pas suffire de modéliser certains types de relations, telles que les relations logiques d'implication ou de contradiction.La première partie de la thèse étudie l'encodage de la notion d'implication textuelle dans un espace vectoriel en imposant l'inclusion d'information. Des opérateurs d'implication sont ensuite développées et le cadre proposé peut être utilisé pour réinterpréter un modèle existant de la sémantique distributionnelle. Des évaluations sont fournies sur la détection d'hyponymie en tant que une instance d'implication lexicale.Un autre défi concerne la variabilité du langage naturel et la nécessité de désambiguïser les unités lexicales en fonction du contexte dans lequel elles apparaissent. Les représentations génériques de mots ne réussissent pas à elles seules, des architectures différentes étant généralement utilisées pour aider à la désambiguïsation. Étant donné que les représentations de mots sont construites à partir de statistiques de cooccurrence sur de grands corpus et qu’elles reflètent ces statistiques, elles fournissent une seule représentation pour un mot donné, malgré ses multiples significations. Même dans le cas de mots monosémiques, cela ne fait pas la distinction entre les différentes utilisations d’un mot en fonction de son contexte.Dans ce sens, on pourrait se demander s'il est possible d'exploiter directement les informations linguistiques fournies par le contexte d'un mot pour en ajuster la représentation. Ces informations seraient-elles utiles pour créer une représentation enrichie du mot dans son contexte? Et si oui, des informations de nature syntaxique peuvent-elles aider au processus ou le contexte local suffit? On peux donc examiner si les représentations génériques des mots et la manière dont elles se combinent peut suffire à construire des représentations plus précises.Dans la deuxième partie de la thèse, nous étudions une façon d’incorporer la connaissance contextuelle dans les représentations de mots eux-mêmes, en exploitant les informations provenant de l’analyse de dépendance de phrase ainsi que les informations de voisinage local. Nous proposons des représentations de mots contextualisées sensibles à la syntaxe (SATokE) qui capturent des informations linguistiques spécifiques et encodent la structure de la phrase dans leurs représentations. Cela permet de passer des représentations de type générique (invariant du contexte) à des représentations spécifiques (tenant compte du contexte). Alors que la syntaxe était précédemment considérée pour les représentations de mots, ses avantages n'ont peut-être pas été entièrement évalués au-delà des modèles qui exploitent ces informations à partir de grands corpus.Les représentations obtenues sont évaluées sur des tâches de compréhension du langage naturel: classification des sentiments, détection de paraphrases, implication textuelle et analyse du discours. Nous démontrons empiriquement la supériorité de ces représentations par rapport aux représentations génériques et contextualisées des mots existantes.Le travail proposé dans la présente thèse contribue à la recherche dans le domaine de la modélisation de phénomènes complexes tels que l'implication textuelle, ainsi que de la variabilité du langage par le biais de la proposition de représentations contextualisés.