Exploration des relations terminologiques entre les termes multi-mots dans les modèles de sémantique distributionnelle
Auteur / Autrice : | Yizhe Wang |
Direction : | Nabil Hathout, Béatrice Daille |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance le 04/10/2022 |
Etablissement(s) : | Toulouse 2 |
Ecole(s) doctorale(s) : | École doctorale Comportement, Langage, Éducation, Socialisation, Cognition (Toulouse) |
Partenaire(s) de recherche : | Laboratoire : Cognition, langues, langage, ergonomie (Toulouse ; 2006-....) |
Jury : | Président / Présidente : Anne Condamines |
Examinateurs / Examinatrices : Manel Zarrouk | |
Rapporteurs / Rapporteuses : Olivier Ferret, Marie-Paule Jacques |
Mots clés
Résumé
Les ressources terminologiques structurées sont conçues pour répondre aux besoins dans les domaines de recherche, de traduction, de rédaction technique, etc. Cependant, les relations entre les termes multi-mots (TMM) y sont souvent sous-représentées. Beaucoup de travaux portent en effet sur l'acquisition de relations entre les termes simples et relativement peu sur l’acquisition de relations entre TMM. D’un autre côté, on observe depuis plusieurs années, l’utilisation massive et réussie des modèles de sémantique distributionnel (MSD) dans de nombreux travaux en sémantique. Notre étude se place à l’articulation de ces deux thèmes. Nous avons exploré les possibilités des MSD à identifier les relations terminologiques entre TMM en utilisant deux méthodes. La première adoptant la substitution lexicale est fondée sur les prédictions d’un modèle de langue masqué (MLM). La seconde consiste à capter des relations sémantiques lexicales par l’analogie entre les représentations des termes générées par un modèle FastText. Ces méthodes sont testées sur deux jeux de données. Nous nous appuyons d'abord sur un jeu de données composé de TMM synonymes du domaine de l’environnement en français fournis par la banque IATE. Devant le manque de ressources intégrant des relations sémantiques variées entre TMM, nous avons construit un second jeu de données par projection sémantique à partir des termes simples et de leurs relations recensées dans le dictionnaire de termes de l'environnement, DiCoEnviro. Les résultats expérimentaux que nous avons obtenus valident notre hypothèse concernant la possibilité de capter des relations terminologiques entre TMM par des MSD.