Thèse soutenue

Les universaux linguistiques émergeants dans les réseaux de neurones communicants
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Rahma Chaabouni
Direction : Emmanuel DupouxMarco Baroni
Type : Thèse de doctorat
Discipline(s) : Apprentissage automatique / Sciences cognitives
Date : Soutenance le 17/03/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Cerveau, cognition, comportement (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire de sciences cognitives et psycholinguistique (1985-....)
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Olivier Bonami
Examinateurs / Examinatrices : Emmanuel Dupoux, Marco Baroni, Olivier Bonami, Angeliki Lazaridou, Emmanuel Chemla, Olivier Pietquin
Rapporteurs / Rapporteuses : Olivier Bonami, Angeliki Lazaridou

Résumé

FR  |  
EN

La capacité d'acquérir et de produire un langage est un élément clé de l'intelligence humaine. En effet, même si de nombreuses espèces partagent un système de communication, le langage humain reste unique par sa productivité, sa récursivité ainsi que le nombre de symboles utilisés. En comprenant mieux les origines de l'apparition du langage, il sera possible de créer des modèles plus performants capable d'interagir et d’acquérir notre langage aussi rapidement et efficacement que nous le faisons en tant que bébé. Dans ce manuscrit, nous utilisons des réseaux de neurones communicants qui peuvent développer et faire évoluer un langage pour nous éclairer sur la question de l'origine du langage naturel. Nous comparons ensuite les propriétés de leur langage émergeant avec les propriétés universelles du langage naturel. Si les réseaux de neurones produisent spontanément une propriété linguistique, celle-ci ne dépendrait pas alors des contraintes biologiques. Autrement, dans le cas où le langage artificiel dévie du langage humain pour une régularité donnée, cette dernière ne peut être considérée comme une conséquence des simples contraintes de communication. D'un point de vue cognitif, considérer les réseaux de neurones comme une autre espèce expressive peut nous éclairer sur la source des propriétés universelles. Du point de vue de l'apprentissage automatique, doter les modèles artificiels de contraintes humaines nécessaires pour faire évoluer des protocoles de communication aussi productifs et robustes que le langage naturel encouragerait le développement de meilleurs modèles d'IA interactifs. Ce manuscrit traite de l'étude de quatre régularités linguistiques qui ont à voir avec la longueur des mots, l'ordre des mots, la catégorisation sémantique et la compositionnalité. Certains chapitres exemplifient des cas où les régularités apparaissent spontanément dans le langage émergeant, tandis que d'autres montrent des cas où les réseaux de neurones développent un langage qui dévie du langage naturel. Nous avons relié le premier cas à la présence de contraintes de communication telles que la nature discrète du canal de communication. Quant à l'absence de régularités naturelles, nous l'avons lié au manque de contraintes soit au niveau de l'apprenant (par exemple, la contrainte biologique de brièveté) soit au niveau de l'environnement (par exemple, la richesse d’environnement). Ainsi, cet ensemble de travaux fournit plusieurs études de cas démontrant l'intérêt d'utiliser des modèles de réseaux de neurones performants dans des tâches de traitement de texte pour aborder des questions cruciales sur l'origine et l'évolution de notre langage. Il souligne également l'importance d'entraîner les réseaux de neurones sous contraintes naturelles pour voir l'émergence d'un protocole de communication aussi efficace et productif que le langage naturel.