Thèse soutenue

Évaluation en extraction de lexiques bilingues à partir de corpus comparables

FR  |  
EN
Auteur / Autrice : Martin Laville
Direction : Emmanuel MorinPhilippe Langlais
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/02/2023
Etablissement(s) : Nantes Université
Ecole(s) doctorale(s) : École doctorale Mathématiques et Sciences et Technologies du numérique, de l’Information et de la Communication (Nantes ; 2022-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Pierre Zweigenbaum
Rapporteurs / Rapporteuses : Éric Gaussier, Marianna Apidianaki

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

L’extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherche d’information. Les systèmes de BLI fonctionnent alors sur de grandes quantités de données et les résultats semblent hautement satisfaisants. Cependant, les données d’évaluation contiennent de nombreuses erreurs, ce qui pourrait conduire à une remise en question des systèmes. Un second contexte d’utilisation plus marginal du BLI est celui des domaines de spécialité, où l’objectif est l’obtention de traductions absentes des dictionnaires classiques. Les corpus spécialisés (qui ne concernent qu’un seul sujet) sont peu fournis en données et il est compliqué pour les systèmes de BLI d’obtenir d’aussi bons résultats qu’en domaine général. Il faut donc chercher à adapter les approches pour prendre en compte cette particularité. Dans cette thèse, nous améliorons les résultats obtenus en BLI en domaine de spécialité en proposant l’utilisation de techniques de sélection de données. Puis, nous nous intéressons au processus d’évaluation en domaine général et plus particulièrement à certains biais présents dans les données d’évaluation comme la surprésence de paires de mots très fréquents ou graphiquement identiques et proposons un processus d’évaluation plus précis et unifié qui prend en compte ces faiblesses dans les données.