Thèse soutenue

Exploration des relations terminologiques entre les termes multi-mots dans les modèles de sémantique distributionnelle

FR  |  
EN
Auteur / Autrice : Yizhe Wang
Direction : Nabil HathoutBéatrice Daille
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 04/10/2022
Etablissement(s) : Toulouse 2
Ecole(s) doctorale(s) : École doctorale Comportement, Langage, Éducation, Socialisation, Cognition (Toulouse)
Partenaire(s) de recherche : Laboratoire : Cognition, langues, langage, ergonomie (Toulouse ; 2006-....)
Jury : Président / Présidente : Anne Condamines
Examinateurs / Examinatrices : Manel Zarrouk
Rapporteurs / Rapporteuses : Olivier Ferret, Marie-Paule Jacques

Résumé

FR  |  
EN

Les ressources terminologiques structurées sont conçues pour répondre aux besoins dans les domaines de recherche, de traduction, de rédaction technique, etc. Cependant, les relations entre les termes multi-mots (TMM) y sont souvent sous-représentées. Beaucoup de travaux portent en effet sur l'acquisition de relations entre les termes simples et relativement peu sur l’acquisition de relations entre TMM. D’un autre côté, on observe depuis plusieurs années, l’utilisation massive et réussie des modèles de sémantique distributionnel (MSD) dans de nombreux travaux en sémantique. Notre étude se place à l’articulation de ces deux thèmes. Nous avons exploré les possibilités des MSD à identifier les relations terminologiques entre TMM en utilisant deux méthodes. La première adoptant la substitution lexicale est fondée sur les prédictions d’un modèle de langue masqué (MLM). La seconde consiste à capter des relations sémantiques lexicales par l’analogie entre les représentations des termes générées par un modèle FastText. Ces méthodes sont testées sur deux jeux de données. Nous nous appuyons d'abord sur un jeu de données composé de TMM synonymes du domaine de l’environnement en français fournis par la banque IATE. Devant le manque de ressources intégrant des relations sémantiques variées entre TMM, nous avons construit un second jeu de données par projection sémantique à partir des termes simples et de leurs relations recensées dans le dictionnaire de termes de l'environnement, DiCoEnviro. Les résultats expérimentaux que nous avons obtenus valident notre hypothèse concernant la possibilité de capter des relations terminologiques entre TMM par des MSD.