Mise à jour atomique des connaissances factuelles dans les modèles de langue
Auteur / Autrice : | Hichem Ammar khodja |
Direction : | Frédéric Bechet, Alexis Nasr |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 02/11/2022 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | Ecole Doctorale Mathématiques et Informatique de Marseille |
Partenaire(s) de recherche : | Laboratoire : LIS Laboratoire d'Informatique et Systèmes |
Equipe de recherche : Traitement Automatique du Langage Ecrit et Parlé |
Mots clés
Résumé
Les grands modèles de langue (Large Language Models ou LLMs) dominent actuellement le champ du traitement automatique des langues. En analysant d'immenses corpus textuels, ils accumulent une vaste étendue de connaissances, englobant des aspects linguistiques, procéduraux et factuels. Or, alors que ces connaissances restent figées dans le modèle, elles évoluent constamment dans le monde réel : le langage évolue, les tâches se transforment, et de nouveaux faits et événements émergent. De ce fait, maintenir la fiabilité des LLMs dans la durée est un enjeu majeur. Dans ce contexte, ma thèse se focalise sur la mise à jour des connaissances factuelles dans des modèles de langue. Plus précisément, je m'intéresse à l'actualisation de connaissances à un niveau atomique, où chaque connaissance est représentée par un fait unique. Ces faits sont formulés comme des triplets RDF extraits de grands graphes de connaissances tels que Wikidata.