Auteur / Autrice : | Marine Courtin | |
Direction : | Martine Adda-Decker, Kim Gerdes | |
Type : | Projet de thèse | |
Discipline(s) : | Sciences du Langage | |
Date : | Inscription en doctorat le 18/09/2018 | Soutenance le 31/01/2024 |
Etablissement(s) : | Paris 3 | |
Ecole(s) doctorale(s) : | École doctorale Sciences du langage (Paris ; 2019-....) | |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de phonétique et phonologie (Paris) |
Mots clés
Résumé
Nos travaux portent sur les treebanks, ces corpus de textes dotés d’annotations de structures syntaxiques. Ils sont très utiles dans de nombreux domaines, de la linguistique au traitement automatique de la langue. Après une introduction portant sur leur rôle dans des domaines variés, nous plongeons dans l’histoire de leur création, depuis les pratiques d’annotation manuelle de textes vers les treebanks modernes avec l’avènement des technologiques. Le chapitre 3 montre les méthodes de création de ces treebanks. Le chapitre 4 discute des problématiques liées à la constitution des guides d’annotation, et mets en évidences certaines de ces problématiques au travers de deux études, la première portant sur traitement des expressions multi-mots, la seconde sur la constitution d’un treebank dans une langue peu pourvue en ressources, le Naija langue parlée au Nigéria étudiée dans le cadre du projet ANR NaijaSynCor. Le chapitre 5 présente l’outil Arborator-Grew, conçu pour faciliter l’annotation collaborative des treebanks. Le chapitre 6 étudie comment des lois linguistiques fonda- mentales comme la loi de Menzerath-Altmann et le Heavy Constituent Shift interagissent. Il propose également plusieurs procédures pour générer des arbres artificiels, permettant de contraster leurs propriété avec celles des arbres syntaxiques. Enfin, le chapitre 7 vise à utiliser des techniques statistiques pour découvrir la structure sous-jacente des phrases dans un texte. En résumé, ce travail montre l’importance des treebanks dans notre compréhension des langues, et leur rôle dans le développement des technologies linguistiques en soulignant l’innovation continue dans ce domaine.