Thèse soutenue

Complexité syntaxique et flux de dépendance : études quantitatives dans les treebanks universal dependencies

FR  |  
EN
Auteur / Autrice : Chunxiao Yan
Direction : Sylvain Kahane
Type : Thèse de doctorat
Discipline(s) : Sciences du langage : traitement automatique des langues
Date : Soutenance le 01/12/2021
Etablissement(s) : Paris 10
Ecole(s) doctorale(s) : École doctorale Connaissance, langage, modélisation (Nanterre, Hauts-de-Seine ; 1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire MoDyCo (Nanterre)
Jury : Président / Présidente : Kim Gerdes
Examinateurs / Examinatrices : Sylvain Kahane, Kim Gerdes, Philippe Blache, François Lareau, Marie-Hélène Candito, Marie Catherine De Marneffe
Rapporteurs / Rapporteuses : Philippe Blache, François Lareau

Résumé

FR  |  
EN

Nous nous intéressons à la complexité syntaxique et aux contraintes liées à la mémoire de travail chez l’humain. La mémoire de travail concerne non seulement la capacité de retenir des informations, mais aussi la capacité de les manipuler temporairement. Elle a été montrée limitée à 7±2 éléments dans Miller (1956) et est aujourd’hui actualisée autour de 4 selon Cowan (2001). La limitation de la mémoire de travail peut rendre le traitement de certaines structures de phrase difficile voire impossible. Dans cette thèse, nous nous penchons sur trois pistes d’étude : étudier et mesurer la complexité syntaxique sous différentes hypothèses cognitives ; savoir s'il existe des limites à la complexité syntaxique dans les langues naturelles ; comprendre les phénomènes impliqués par les contraintes sur la complexité syntaxique. De ce fait, nous mesurons la complexité syntaxique en utilisant des métriques basées sur le flux de dépendance (Kahane, 2001) dans le corpus. Ces métriques incluent non seulement des métriques devenues classiques comme la longueur de dépendance, des métriques proposées dans des travaux antérieurs (Kahane et al., 2017), mais aussi de nouvelles métriques également basées sur le flux de dépendance ; en se basant sur les résultats donnés par ces différentes métriques sur les plus de 100 langues appartenant à la collection des treebanks Universal Dependencies, nous pouvons déterminer celles qui sont les plus appropriées pour étudier la complexité syntaxique. Nous montrons qu’il existe pour certaines métriques du flux des contraintes universelles, dont nous postulons qu’elles sont liées à la mémoire de travail. Enfin, nous essayons également d'expliquer certains des phénomènes linguistiques observés dans nos données qui impliquent la complexité syntaxique.