Vers des systèmes de désambiguïsation d'entités efficaces, généraux et robustes
Auteur / Autrice : | Lihu Chen |
Direction : | Fabian Suchanek, Gaël Varoquaux |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 14/06/2023 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information |
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) | |
Jury : | Président / Présidente : Chloé Clavel |
Examinateurs / Examinatrices : Chloé Clavel, Evangelos Kanoulas, Gerard Melo de, Serena Villata, Mrinmaya Sachan | |
Rapporteurs / Rapporteuses : Evangelos Kanoulas, Gerard Melo de |
Mots clés
Résumé
La désambiguïsation des entités vise à faire correspondre les mentions dans les documents à des entités standard dans une base de connaissances donnée, ce qui est important pour diverses applications telles que l'extraction d'informations, la recherche sur le web et la réponse aux questions.Bien que le domaine soit très dynamique et que de nombreux travaux nouveaux apparaissent, trois questions sont sous-explorées par les travaux antérieurs.1) Peut-on utiliser un petit modèle pour approcher les performances d'un grand modèle ?2) Comment développer un système de désambiguïsation unique adapté à plusieurs domaines ?3) Les systèmes existants sont-ils robustes aux mots hors-vocabulaire et aux différents ordres de mots ?Sur la base de ces trois questions, nous étudions comment construire un système de désambiguïsation d'entités efficace, général et robuste. Nous appliquons également avec succès la désambiguïsation d'entités à la tâche d'achèvement de la base de connaissances, en particulier pour les entités à longue traîne.