Évaluation et intégration des connaissances structurelles pour modèles de langue pré-entraînés
Auteur / Autrice : | Jesus Enrique Lovon Melgarejo |
Direction : | Lynda Tamine-Lechani, José G. Moreno |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et Télécommunications |
Date : | Soutenance le 28/03/2024 |
Etablissement(s) : | Université de Toulouse (2023-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, informatique et télécommunications (Toulouse) |
Partenaire(s) de recherche : | Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....) |
Jury : | Président / Présidente : François Yvon |
Examinateurs / Examinatrices : Enrique Amigó | |
Rapporteurs / Rapporteuses : Aurélie Névéol, Julien Velcin |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Le domaine de la représentation des connaissances est en constante évolution. Grâce aux récents progrès dans les réseaux neuronaux profonds, en particulier l'architecture Transformer, le domaine du traitement automatique du langage naturel (TALN) a été doté d'outils révolutionnaires conduisant à des performances améliorées sur de multiples tâches de TALN. Les modèles de langue pré-entraînés (PLM), tels que BERT et GPT, qui sont des modèles basés sur des Transformers entraînés sur d'importantes quantités de données textuelles, ont joué un rôle significatif dans ces avancées. Les PLMs peuvent produire des représentations contextualisées intégrant des motifs syntaxiques et sémantiques riches du langage. Cependant, ils ne fournissent pas de représentations structurées et factuelles des connaissances, essentielles pour une meilleure compréhension du langage. Pour remédier à ces problèmes, les chercheurs ont exploré la combinaison de PLMs classiques avec des ressources de connaissances externes, telles que les bases de connaissances (KB). Cette approche vise à compléter les PLMs en fournissant les composants structurels et factuels manquants inhérents aux KBs. En résulte l'émergence d'une nouvelle famille de PLM renforcés par la connaissance (KEPLM). Dans cette thèse, nous nous concentrons sur l'intégration des KBs dans les PLMs, avec un intérêt particulier pour leur structure ou hiérarchie. Nous explorons différentes orientations de recherche visant à améliorer ces PLMs, notamment (i) l'exploration des limitations et des méthodes pour intégrer implicitement les KBs et leur impact sur les tâches basées sur le raisonnement et (ii) la définition de méthodologies d'évaluation pour les signaux hiérarchiques explicites des PLMs et leur transférabilité à d'autres tâches de TALN. Dans une première contribution, nous proposons de revisiter les méthodes d'entraînement des PLMs pour les tâches basées sur le raisonnement. Les méthodes actuelles se limitent à généraliser cette tâche à différents niveaux de difficulté, traitant chaque niveau comme une tâche différente. Au lieu de cela, nous suggérons une approche incrémentielle d'apprentissage du raisonnement, où le raisonnement est appris progressivement, passant des niveaux de difficulté simples aux niveaux complexes. Cette approche tire parti de composants précédemment négligés qui ne participent pas à la chaîne de raisonnement principale, et nous évaluons si cela améliore la généralisation de cette tâche. Nous utilisons une méthodologie implicite qui transforme l'information structurée en texte non structuré avec un contenu taxonomique riche. Nous avons également mené des expériences sur des tâches liées au raisonnement, telles que la compréhension de lecture et la réponse aux questions, pour évaluer la pertinence de notre proposition. Pour notre deuxième contribution, nous visons à améliorer les performances des PLMs en incorporant des signaux hiérarchiques explicites en eux. Alors que diverses approches d'évaluation et d'intégration ont été développées pour les plongements lexicaux statiques, il y a une exploration limitée de ces méthodes pour les plongements lexicaux contextualisés. Les méthodes d'évaluation actuelles pour les PLMs héritent des limitations des évaluations des plongements statiques, telles que les biais des ensembles de données et les signaux hiérarchiques superficiels. Par conséquent, nous proposons une nouvelle méthodologie d'évaluation pour les PLMs qui prend en compte de multiples signaux hiérarchiques. Notre travail caractérise la représentation hiérarchique en la décomposant en distributions hiérarchiques de base que nous appelons propriétés hiérarchiques. Nous évaluons les connaissances hiérarchiques présentes dans les PLMs de pointe en utilisant ces propriétés et analysons si leur apprentissage vise à améliorer les représentations hiérarchiques internes des modèles et leur applicabilité aux tâches de TALN connexes.