Thèse en cours

Modélisation du langage par réseau de neurones, approche par simplicité

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 07/05/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Nur Lan
Direction : Emmanuel ChemlaRoni Katzir
Type : Projet de thèse
Discipline(s) : Sciences cognitives
Date : Inscription en doctorat le
Soutenance le 07/05/2024
Etablissement(s) : Université Paris sciences et lettres en cotutelle avec Tel Aviv University
Ecole(s) doctorale(s) : École doctorale Cerveau, cognition, comportement (Paris ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de sciences cognitives et psycholinguistique (1985-....)
Equipe de recherche : Le langage et son acquisition
établissement opérateur d'inscription : Ecole normale supérieure
Jury : Président / Présidente : Giorgio Magri
Examinateurs / Examinatrices : Emmanuel Chemla, Roni Katzir, Hava Siegelmann, Noga Zaslavsky
Rapporteurs / Rapporteuses : Hava Siegelmann

Résumé

FR  |  
EN

L'objectif de cette thèse est de déterminer comment les réseaux de neurones artificiels (RNA) diffèrent des humains en termes de capacités de généralisation, et comment alors réduire les différences potentielles. Les RNA ont connu une croissance fulgurante ces dernières années, à une croissance à la fois en termes de leur succès et de leur taille. L’hypothèse principale de cette thèse est qu’en imposant des contraintes de simplicité rationnelles, de plus petits RNA pourraient être en mesure d’effectuer de meilleures généralisations. Cette thèse présente une nouvelle proposition, suivie de trois études. Dans le chapitre 1, nous proposons un nouveau type de réseaux neuronaux récurrents (RNR), dans lesquels les objectifs d'apprentissage standards sont remplacés/complétés par un objectif de minimisation de la longueur de description minimale (Minimum Description Length - MDL) du réseau lui-même. En appliquant ce principe, on obtient intentionnellement des RNN beaucoup plus petits qui peuvent apprendre, en toute généralité, certains langages formels qui étaient hors de portée des ANNs standards. Les chapitres 2 et 3 suggèrent donc qu'un changement d’objectif d’apprentissage pourrait être nécessaire pour atteindre une généralisation de niveau humain dans les RNAs. Dans le chapitre 2, nous proposons un moyen systématique d'inspecter les capacités de généralisation des modèles artificiels à l'aide de langages formels. Nous publions plusieurs ensembles de données d'étalonnage qui unifient et normalisent les résultats précédents présents dans la littérature de façon dispersés. Nous montrons que les performances des RNA existants, même ceux équipés d'architectures plus expressives, sont inférieures à celles du modèle MDL du chapitre 1. Dans le chapitre 3, nous construisons manuellement un réseau qui capture parfaitement le langage aⁿbⁿ, et nous montrons qu'il ne se situe pas aux optima des objectifs standards. En revanche, ce réseau parfait en terme de comportement, est bel et bien un optimum pour l’objectif MDL que nous proposons. Dans le chapitre 4, nous mettons de côté la question de l'objectif d’apprentissage et examinons les connaissances linguistiques acquises par les grands modèles de langage (LLM). Pour ce faire, nous considérons l'argument de la pauvreté du stimulus (APS) - l’argument longtemps débattu selon laquelle l’apprentissage du langage doit reposer sur des capacités innées chez les humains, sans quoi l'input linguistique à la disposition d’un enfant ne lui permettrait pas de faire les généralisations qu’il fait. Nous montrons que, contrairement à de précédents résultats, les LLM ont du mal à acquérir une connaissance satisfaisante de phénomènes syntaxiques pour lesquels les humains ont des jugements clairs (‘parasitic gap’ et ‘across-the-board movement’). Étant donné que les LLM modernes sont entraînés à partir de quantités massives de données, qui dépassent de plusieurs ordres de grandeur l'expérience linguistique des enfants, nous concluons que ces échecs soutiennent l'affirmation selon laquelle les humains sont dotés de moyens spécifiques qui rendent possible l'acquisition de tels phénomènes à partir de beaucoup moins d'inputs, c'est-à-dire qu'ils soutiennent l'APS. En d'autres termes, les êtres humains ont des biais d’apprentissage, et ce sont ces biais qui leur permettent de converger vers des langues communes à partir d’un input similaire. En réalité, tous les systèmes d’apprentissage ont de tels biais, des priors dit-on dans la terminologie bayésienne, mais leurs biais sont différents.