Thèse soutenue

Exploiter les Modèles de Langage Basés sur les Transformers pour Combler le Fossé entre le Langage et les Domaines Spécialisés

FR  |  
EN
Auteur / Autrice : Abdine Hadi
Direction : Michalis Vazirgiannis
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 02/04/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....) - Laboratoire d'informatique de l'École polytechnique [Palaiseau] / LIX
Jury : Président / Présidente : Preslav Nakov
Examinateurs / Examinatrices : Michalis Vazirgiannis, François Yvon, Davide Buscaldi, Oana Balalau, Éric Moulines, Tang Jie, Christophe Cerisara
Rapporteurs / Rapporteuses : Preslav Nakov, François Yvon

Résumé

FR  |  
EN

L'ère des modèles de langage basés sur des 'transormers' a ouvert la voie à un nouveau paradigme dans le traitement du langage naturel (NLP), permettant des performances remarquables dans un large éventail de tâches dans les domaines de la compréhension du langage naturel (NLU) et de la génération du langage naturel (NLG). Cette thèse se penche sur le potentiel de transformation des modèles de langage basés sur les 'transformers' lorsqu'ils sont appliqués à des domaines et des langues spécialisés. Elle comprend quatre projets de recherche, chacun contribuant à l'objectif global d'amélioration de la compréhension et de la génération du langage dans des contextes spécialisés.Pour répondre à la rareté des modèles de langue non anglophones pré-entraînés dans les domaines généraux et spécialisés, nous explorons la création de deux modèles de langue : JuriBERT et GreekBART. JuriBERT est un ensemble de modèles BERT spécifiques au domaine juridique français, et qui répondent aux besoins des professionnels juridiques. JuriBERT est évalué sur deux tâches juridiques françaises provenant de la cour de cassation en France. Les résultats soulignent que certaines tâches spécialisées peuvent être mieux traitées avec de petits modèles spécifiques à un domaine qu'avec leurs homologues génériques de plus grande taille. Nous présentons également GreekBART, le premier modèle Seq2Seq grec. Basés sur BART, ces modèles sont particulièrement bien adaptés aux tâches génératives. Nous évaluons les performances de GreekBART par rapport à d'autres modèles sur diverses tâches discriminatives et évaluons ses capacités en NLG en utilisant deux tâches génératives grecques de GreekSUM, un nouvel ensemble de données introduit dans cette recherche. Nous montrons que GreekBART est très compétitif par rapport auz modèles linguistiques multilingues et monolingues basés sur BERT, tels que GreekBERT et XLM-R.Nous examinons ensuite le domaine de la sémantique en tirant parti des répresentation vectorielle contextuelles basées sur les 'transformer' pour résoudre le problème de l'induction du sens des mots (WSI). Nous proposons une nouvelle méthode non supervisée qui utilise le regroupement d'informations invariantes (IIC) et le regroupement agglomératif pour enrichir et regrouper les représentations des mots cibles. Une évaluation approfondie sur deux tâches WSI et de multiples modèles de langage pré-entraînés démontre la compétitivité de notre approche par rapport l'état de l'art.Enfin, nous présentons Prot2Text, une approche multimodale permettant de générer des fonctions de protéines en texte brut en combinant trois modalités : la structure des protéines, la séquence des protéines et le langage naturel. Prot2Text fait progresser la prédiction des fonctions des protéines au-delà des classifications traditionnelles. Prot2Text intégre des réseaux neuronaux graphiques (GNN) et des large modèles de langage (LLM) dans un cadre codeur-décodeur. Une évaluation empirique sur un ensemble de données protéiques multimodales montre l'efficacité de Prot2Text, qui offre des outils puissants pour la prédiction de la fonction d'une large gamme de protéines.