Thèse en cours

Mise à jour atomique des connaissances factuelles dans les modèles de langue

FR  |  
EN
Auteur / Autrice : Hichem Ammar khodja
Direction : Frédéric BechetAlexis Nasr
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 02/11/2022
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole Doctorale Mathématiques et Informatique de Marseille
Partenaire(s) de recherche : Laboratoire : LIS Laboratoire d'Informatique et Systèmes
Equipe de recherche : Traitement Automatique du Langage Ecrit et Parlé

Résumé

FR  |  
EN

Les grands modèles de langue (Large Language Models ou LLMs) dominent actuellement le champ du traitement automatique des langues. En analysant d'immenses corpus textuels, ils accumulent une vaste étendue de connaissances, englobant des aspects linguistiques, procéduraux et factuels. Or, alors que ces connaissances restent figées dans le modèle, elles évoluent constamment dans le monde réel : le langage évolue, les tâches se transforment, et de nouveaux faits et événements émergent. De ce fait, maintenir la fiabilité des LLMs dans la durée est un enjeu majeur.   Dans ce contexte, ma thèse se focalise sur la mise à jour des connaissances factuelles dans des modèles de langue. Plus précisément, je m'intéresse à l'actualisation de connaissances à un niveau atomique, où chaque connaissance est représentée par un fait unique. Ces faits sont formulés comme des triplets RDF extraits de grands graphes de connaissances tels que Wikidata.