Thèse soutenue

Des corpus arborés à l’induction de structures syntaxiques partielles

FR  |  
EN
Auteur / Autrice : Marine Courtin
Direction : Martine Adda-DeckerKim Gerdes
Type : Thèse de doctorat
Discipline(s) : Sciences du Langage
Date : Soutenance le 31/01/2024
Etablissement(s) : Paris 3
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris ; 2019-2025)
Partenaire(s) de recherche : Laboratoire : Laboratoire de phonétique et phonologie (Paris)
Jury : Président / Présidente : Sylvain Kahane
Examinateurs / Examinatrices : Martine Adda-Decker, Kim Gerdes, Sylvain Kahane, Marie-Hélène Candito, Ramon Ferrer i Cancho, Delphine Bernhard
Rapporteurs / Rapporteuses : Marie-Hélène Candito, Ramon Ferrer i Cancho

Résumé

FR  |  
EN

Nos travaux portent sur les treebanks, ces corpus de textes dotés d’annotations de structures syntaxiques. Ils sont très utiles dans de nombreux domaines, de la linguistique au traitement automatique de la langue. Après une introduction portant sur leur rôle dans des domaines variés, nous plongeons dans l’histoire de leur création, depuis les pratiques d’annotation manuelle de textes vers les treebanks modernes avec l’avènement des technologiques. Le chapitre 3 montre les méthodes de création de ces treebanks. Le chapitre 4 discute des problématiques liées à la constitution des guides d’annotation, et mets en évidences certaines de ces problématiques au travers de deux études, la première portant sur traitement des expressions multi-mots, la seconde sur la constitution d’un treebank dans une langue peu pourvue en ressources, le Naija langue parlée au Nigéria étudiée dans le cadre du projet ANR NaijaSynCor. Le chapitre 5 présente l’outil Arborator-Grew, conçu pour faciliter l’annotation collaborative des treebanks. Le chapitre 6 étudie comment des lois linguistiques fondamentales comme la loi de Menzerath-Altmann et le Heavy Constituent Shift interagissent. Il propose également plusieurs procédures pour générer des arbres artificiels, permettant de contraster leurs propriété avec celles des arbres syntaxiques. Enfin, le chapitre 7 vise à utiliser des techniques statistiques pour découvrir la structure sous-jacente des phrases dans un texte. En résumé, ce travail montre l’importance des treebanks dans notre compréhension des langues, et leur rôle dans le développement des technologies linguistiques en soulignant l’innovation continue dans ce domaine.