Thèse en cours

Des corpus arborés à l’induction de structures syntaxiques partielles
FR  |  
EN
Accès à la thèse
Triangle exclamation pleinLa soutenance a eu lieu le 31/01/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Marine Courtin
Direction : Martine Adda-DeckerKim Gerdes
Type : Projet de thèse
Discipline(s) : Sciences du Langage
Date : Inscription en doctorat le 18/09/2018
Soutenance le 31/01/2024
Etablissement(s) : Paris 3
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris ; 2019-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de phonétique et phonologie (Paris)

Résumé

FR  |  
EN

Nos travaux portent sur les treebanks, ces corpus de textes dotés d’annotations de structures syntaxiques. Ils sont très utiles dans de nombreux domaines, de la linguistique au traitement automatique de la langue. Après une introduction portant sur leur rôle dans des domaines variés, nous plongeons dans l’histoire de leur création, depuis les pratiques d’annotation manuelle de textes vers les treebanks modernes avec l’avènement des technologiques. Le chapitre 3 montre les méthodes de création de ces treebanks. Le chapitre 4 discute des problématiques liées à la constitution des guides d’annotation, et mets en évidences certaines de ces problématiques au travers de deux études, la première portant sur traitement des expressions multi-mots, la seconde sur la constitution d’un treebank dans une langue peu pourvue en ressources, le Naija langue parlée au Nigéria étudiée dans le cadre du projet ANR NaijaSynCor. Le chapitre 5 présente l’outil Arborator-Grew, conçu pour faciliter l’annotation collaborative des treebanks. Le chapitre 6 étudie comment des lois linguistiques fonda- mentales comme la loi de Menzerath-Altmann et le Heavy Constituent Shift interagissent. Il propose également plusieurs procédures pour générer des arbres artificiels, permettant de contraster leurs propriété avec celles des arbres syntaxiques. Enfin, le chapitre 7 vise à utiliser des techniques statistiques pour découvrir la structure sous-jacente des phrases dans un texte. En résumé, ce travail montre l’importance des treebanks dans notre compréhension des langues, et leur rôle dans le développement des technologies linguistiques en soulignant l’innovation continue dans ce domaine.