Thèse en cours

Pré-entraînement multilingue universel auto-supervisé de modèles de langage parlé

FR  |  
EN
Auteur / Autrice : Maxime Poli
Direction : Emmanuel DupouxEmmanuel Chemla
Type : Projet de thèse
Discipline(s) : Sciences cognitives
Date : Inscription en doctorat le 01/09/2023
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Cerveau, cognition, comportement (Paris ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de sciences cognitives et psycholinguistique (1985-....)
établissement opérateur d'inscription : Ecole normale supérieure

Résumé

FR  |  
EN

Les progrès récents dans le domaine de l'apprentissage profond ont mené au développement de grands modèles dits ''fondationnels'': des réseaux de neurones profonds entraînés de façon auto-supervisée sur de grandes quantités de données. Certains modèles fondationnels entraînés sur du texte --- les LLMs (Large Language Models)--- sont d'excellents générateurs de texte: par exemple les non-experts ont des difficultés à distinguer un court texte en anglais écrit par GPT-3 d'un texte écrit par un humain. Les LLMs apprennent grâce à un objectif auto-supervisé simple: prédire les unités linguistiques futures --- caractères ou mots --- sur la base d'unités passées. Cette méthode présente des similarités avec la façon dont les nourrissons démarrent leur acquisition du langage avant même de parler: en construisant un modèle probabiliste du langage qu'ils entendent dans leur environnement immédiat. Mais pourtant, il y a deux différences majeures entre les nourrissons et les LLMs: la quantité et la nature des données d'entrée. Les jeunes enfants entendent entre 1M et 10M de mots par an, tandis que des modèles de langue récents ont besoin de 1000 à 10000 fois plus de données; et la différence augmente avec la taille des modèles. Par ailleurs, les enfants apprennent uniquement à partir des sons qu'ils entendent, les LLMs à partir du texte. Le signal audio est continu contrairement au texte, tout en étant à la fois plus riche, bruité et variable; et les spoken-LLMs récemment développés apprenant à partir du signal audio ont besoin d'encore plus de données que les LLMs à base de texte. Ainsi, malgré leurs résultats spectaculaires, les modèles de langage actuels font encore pâle figure face aux enfants en bas âge en ce qui concerne l'efficacité et la robustesse de leurs acquisitions. Bien entendu, les nourrissons ne partent pas de zéro : ils disposent à la naissance d'un système auditif et de biais inductifs hérités de millions d'années d'évolution pour apprendre efficacement à partir de données réelles, peu importe la langue. Ce projet de recherche vise à reproduire cette évolution biologique en construisant un modèle de l'appareil linguistique humain à l'état initial qui peut apprendre avec aussi peu de données que l'enfant. Une telle démarche a un double intérêt: sur le plan pratique, obtenir des modèles fondationnels pouvant apprendre sur des langues rares avec très peu de données, voire des données bruitées; sur le plan théorique, développer des modèles plausibles permettant la simulation numérique des trajectoires d'acquisition du langage chez l'humain en fonction des données d'entrées.