Modélisation du langage par réseau de neurones, approche par simplicité
Auteur / Autrice : | Nur Lan |
Direction : | Emmanuel Chemla, Roni Katzir |
Type : | Projet de thèse |
Discipline(s) : | Sciences cognitives |
Date : | Inscription en doctorat le Soutenance le 07/05/2024 |
Etablissement(s) : | Université Paris sciences et lettres en cotutelle avec Tel Aviv University |
Ecole(s) doctorale(s) : | École doctorale Cerveau, cognition, comportement (Paris ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de sciences cognitives et psycholinguistique (1985-....) |
Equipe de recherche : Le langage et son acquisition | |
établissement opérateur d'inscription : Ecole normale supérieure | |
Jury : | Président / Présidente : Giorgio Magri |
Examinateurs / Examinatrices : Emmanuel Chemla, Roni Katzir, Hava Siegelmann, Noga Zaslavsky | |
Rapporteurs / Rapporteuses : Hava Siegelmann |
Mots clés
Mots clés libres
Résumé
L'objectif de cette thèse est de déterminer comment les réseaux de neurones artificiels (RNA) diffèrent des humains en termes de capacités de généralisation, et comment alors réduire les différences potentielles. Les RNA ont connu une croissance fulgurante ces dernières années, à une croissance à la fois en termes de leur succès et de leur taille. Lhypothèse principale de cette thèse est quen imposant des contraintes de simplicité rationnelles, de plus petits RNA pourraient être en mesure deffectuer de meilleures généralisations. Cette thèse présente une nouvelle proposition, suivie de trois études. Dans le chapitre 1, nous proposons un nouveau type de réseaux neuronaux récurrents (RNR), dans lesquels les objectifs d'apprentissage standards sont remplacés/complétés par un objectif de minimisation de la longueur de description minimale (Minimum Description Length - MDL) du réseau lui-même. En appliquant ce principe, on obtient intentionnellement des RNN beaucoup plus petits qui peuvent apprendre, en toute généralité, certains langages formels qui étaient hors de portée des ANNs standards. Les chapitres 2 et 3 suggèrent donc qu'un changement dobjectif dapprentissage pourrait être nécessaire pour atteindre une généralisation de niveau humain dans les RNAs. Dans le chapitre 2, nous proposons un moyen systématique d'inspecter les capacités de généralisation des modèles artificiels à l'aide de langages formels. Nous publions plusieurs ensembles de données d'étalonnage qui unifient et normalisent les résultats précédents présents dans la littérature de façon dispersés. Nous montrons que les performances des RNA existants, même ceux équipés d'architectures plus expressives, sont inférieures à celles du modèle MDL du chapitre 1. Dans le chapitre 3, nous construisons manuellement un réseau qui capture parfaitement le langage aⁿbⁿ, et nous montrons qu'il ne se situe pas aux optima des objectifs standards. En revanche, ce réseau parfait en terme de comportement, est bel et bien un optimum pour lobjectif MDL que nous proposons. Dans le chapitre 4, nous mettons de côté la question de l'objectif dapprentissage et examinons les connaissances linguistiques acquises par les grands modèles de langage (LLM). Pour ce faire, nous considérons l'argument de la pauvreté du stimulus (APS) - largument longtemps débattu selon laquelle lapprentissage du langage doit reposer sur des capacités innées chez les humains, sans quoi l'input linguistique à la disposition dun enfant ne lui permettrait pas de faire les généralisations quil fait. Nous montrons que, contrairement à de précédents résultats, les LLM ont du mal à acquérir une connaissance satisfaisante de phénomènes syntaxiques pour lesquels les humains ont des jugements clairs (parasitic gap et across-the-board movement). Étant donné que les LLM modernes sont entraînés à partir de quantités massives de données, qui dépassent de plusieurs ordres de grandeur l'expérience linguistique des enfants, nous concluons que ces échecs soutiennent l'affirmation selon laquelle les humains sont dotés de moyens spécifiques qui rendent possible l'acquisition de tels phénomènes à partir de beaucoup moins d'inputs, c'est-à-dire qu'ils soutiennent l'APS. En d'autres termes, les êtres humains ont des biais dapprentissage, et ce sont ces biais qui leur permettent de converger vers des langues communes à partir dun input similaire. En réalité, tous les systèmes dapprentissage ont de tels biais, des priors dit-on dans la terminologie bayésienne, mais leurs biais sont différents.