Thèse soutenue

Annotation et analyse syntaxique de corpus hétérogènes : le cas du français médiéval
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Mathilde Regnault
Direction : Sophie PrévostEric Villemonte de la Clergerie
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 16/06/2022
Etablissement(s) : Paris 3
Ecole(s) doctorale(s) : École doctorale Sciences du langage (Paris ; 2019-....)
Partenaire(s) de recherche : Laboratoire : Langues, textes, traitements informatiques, cognition (Montrouge, Hauts de Seine)
Jury : Président / Présidente : Béatrice Daille
Examinateurs / Examinatrices : Sophie Prévost, Eric Villemonte de la Clergerie, Béatrice Daille, Laura Kallmeyer, Sylvain Kahane, Annie Foret, Achim Stein
Rapporteurs / Rapporteuses : Laura Kallmeyer, Sylvain Kahane

Résumé

FR  |  
EN

Le français médiéval couvre les états de langue d’ancien français (9e-13e s.) et de moyen français (14e-15e s.). Nous disposons de données annotées pour ces états de langue, dont un corpus arboré d’ancien français (Stein et Prévost 2013). Il est cependant difficile d’obtenir plus de données annotées syntaxiquement, car les spécialistes sont peu nombreux et qu’il n’existe pas encore d’outil dédié pour l’ensemble de la période. Développer ce genre d’outil permet d’obtenir des annotations plus facilement et d’en contrôler la qualité. Cependant, ce n’est pas une tâche simple parce que les différents états de langue sont soumis à la variation, due à plusieurs facteurs, notamment l’absence de norme graphique, la variation dialectale, la souplesse de l’ordre des mots, l’évolution de la morphologie et de la syntaxe (sur sept siècles), qui fait passer le français d’une langue SOV à une langue SVO. La nature des écrits se diversifie aussi à mesure que la littérature évolue et que le latin est délaissé au bénéfice du français comme langue administrative et juridique. Les données à analyser sont donc hétérogènes, ce qui rend difficile le traitement automatique.Pour obtenir un parseur du français médiéval, nous proposons d’adapter la métagrammaire du français contemporain FRMG (Villemonte de la Clergerie 2005). Bien que les différents états de langue présentent des différences manifestes, les points communs sont suffisants pour rendre possible la modification d’un système existant pour obtenir un outil dédié. Les changements concernent essentiellement l’ordre des mots (constituants majeurs, modifieurs du nom, position des pronoms conjoints). Pour utiliser cet outil sur corpus, il est nécessaire d’enrichir le lexique d’ancien français (Sagot 2019), d’une part pour obtenir une couverture lexicale satisfaisante sur les textes, et, d’autre part, pour y intégrer des informations syntaxiques et sémantiques nécessaires à l’analyse syntaxique.