Linking Linguistics and Brain Dynamics with Language Models
Auteur / Autrice : | Pablo Diego simon |
Direction : | Emmanuel Chemla |
Type : | Projet de thèse |
Discipline(s) : | Sciences cognitives |
Date : | Inscription en doctorat le 01/09/2023 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Cerveau, cognition, comportement (Paris ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de sciences cognitives et psycholinguistique (1985-....) |
Equipe de recherche : Le langage et son acquisition | |
établissement opérateur d'inscription : Ecole normale supérieure |
Mots clés
Résumé
Dans cette thèse, nous combinerons les avancées en IA et en neurosciences pour comprendre comment les structures linguistiques sont représentées dans l'activité neuronale. Pour cela, nous étudierons le codage des structures de phrases dans les modèles de langage neuronaux de pointe, dériverons leurs prédictions et les testerons sur un ensemble unique de données intracrâniennes que nous collectons actuellement. Cet ensemble de données est sans équivalent en termes de résolutions qu'il fournira, allant de grandes populations neuronales au niveau du neurone individuel. Pour isoler les structures de phrases, nous nous concentrerons sur les accords grammaticaux à longue portée. Ces accords sont considérés comme l'une des meilleures fenêtres sur le traitement des structures hiérarchiques dans le langage naturel. Par exemple, dans la phrase Les clés du placard sont sur la table.', le sujet principal 'clés' et le verbe 'sont' concordent en nombre grammatical (pluriel) malgré leur séparation et la présence d'un nom intercalaire 'placard', qui porte le nombre grammatical opposé (singulier). Les accords à longue portée montrent donc que les phrases ont une structure hiérarchique latente. Objectif 1 - Identifier les mécanismes neuronaux sous-jacents aux accords à longue portée dans les grands modèles de langage : Dans des travaux antérieurs, nous avons identifié le mécanisme neuronal sous-jacent à l'accord à longue portée dans les modèles de langage. Cependant, ce travail se concentrait uniquement sur une seule architecture neuronale, un réseau neuronal récurrent (RNN), qui est actuellement surpassé sur de nombreux fronts par les modèles plus récents tels que le Transformer (Vaswani et al., 2017). Notre premier objectif est donc d'identifier les mécanismes utilisés par les Transformers pour traiter les accords à longue portée. Notre étude la plus récente prédit que les Transformers développent un mécanisme neural similaire à celui des RNNs (Lakretz et al., 2022). Cependant, elle s'est concentrée sur la performance des modèles sans sonder les mécanismes neuronaux. Objectif 2 - Tester les prédictions des modèles chez l'homme : Nous étudierons le traitement des structures de phrases dans le cerveau humain en testant les prédictions des mécanismes neuronaux identifiés dans les modèles. Pour cela, nous recueillerons un ensemble de données intracrâniennes unique et volumineux provenant d'humains lisant des phrases isolées. Nous comparerons ensuite ces données neuronales humaines aux activations des neurones artificiels dans les grands modèles de langage. Objectif 3 - Quantifier l'alignement entre les cerveaux et les modèles pendant le traitement des phrases : En plus des mécanismes localisés dédiés aux accords à longue portée, nous étudierons le traitement à grande échelle de la structure des phrases dans le réseau de langage humain. Pour cela, nous analyserons les ensembles de données publiques disponibles en IRMf et MEG, en utilisant les méthodes d'apprentissage automatique que nous avons développées dans des travaux précédents.