Thèse en cours

Adaptative and Frugal Deep Learning Architectures

FR  |  
EN
Auteur / Autrice : Erwan Fagnou
Direction : Alexandre Allauzen
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/11/2023
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris)
établissement opérateur d'inscription : Université Paris Dauphine-PSL (1968-....)

Résumé

FR  |  
EN

Les Large Language Models (LLM) sont aujourd'hui omniprésents dans le traitement du langage naturel (NLP) et plus encore. L'une de leurs forces est leur capacité à englober la diversité et la variabilité d'une énorme quantité de données avec un nombre encore plus grand de paramètres. En termes de ressources et d'impact sur le climat, seule leur large réutilisation peut justifier le coût de leur entraînement. Le terme "coût d'entraînement" couvre plusieurs aspects : au-delà du coût économique (qui se chiffre généralement en millions de dollars), il convient de tenir compte de l'empreinte carbone et de l'exigence en matière de données. Il s'agit là d'une lacune importante, car il n'existe aujourd'hui que des méthodes simples de fine-tuning qui permettent à ces modèles de faire face à des data-drifts, à de nouveaux thèmes et genres de textes, ou au large spectre de variabilité de la parole (accent, âge...). La durée de vie des LLMs peut être limitée dans la pratique. Alors que des approches existantes ont été proposées dans le passé, les défis climatiques demandent des solutions plus avancées tout en préservant la performance et les résultats impressionnants obtenus avec les LLMs. Dans cette thèse, nous envisagerons deux pistes de recherche possibles. La première concerne le développement d'architectures dynamiques (croissance et/ou élagage). La seconde consiste à explorer de nouvelles techniques d'apprentissage par transfert, au-delà du fine-tuning, avec différents objectifs : partager et étendre la connaissance des différents LLM existants au cours de leur vie ; élargir l'apprentissage auto-supervisé pour les données textuelles et multimodales (en mélangeant texte et parole par exemple pour traiter la diversité des sources). Le sujet de la thèse est en ligne avec les priorités de l'équipe MILES concernant "Trustworthy Machine Learning". En outre, il s'agit également d'un objectif important pour la communauté de l'IA, avec des résultats importants et positifs pour la société.