Thèse soutenue

Approche multi-niveaux pour l'analyse des données textuelles non-standardisées : corpus de textes en moyen français
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Mourad Aouini
Direction : Max SilberzteinJean-Philippe Genet
Type : Thèse de doctorat
Discipline(s) : Sciences du langage. Traitement automatique des langues
Date : Soutenance le 19/03/2018
Etablissement(s) : Bourgogne Franche-Comté
Ecole(s) doctorale(s) : École doctorale Lettres, Communication, Langues, Arts (Dijon ; Besançon ; 2017-....)
Partenaire(s) de recherche : Laboratoire : Edition, Langages, Littératures, Informatique, Arts, Didactiques, Discours (ELLIADD) (Besançon) - Edition, Littératures, Langages, Informatique, Arts, Didactique, Discours [Besançon]
établissement de préparation : Université de Franche-Comté (1971-....)
Jury : Président / Présidente : Céline Guillot-Barbance
Examinateurs / Examinatrices : Max Silberztein, Jean-Philippe Genet, Céline Guillot-Barbance, Samir Mbarki, Kim Gerdes
Rapporteurs / Rapporteuses : Céline Guillot-Barbance, Samir Mbarki

Résumé

FR  |  
EN

Cette thèse présente une approche d'analyse des textes non-standardisé qui consiste à modéliser une chaine de traitement permettant l’annotation automatique de textes à savoir l’annotation grammaticale en utilisant une méthode d’étiquetage morphosyntaxique et l’annotation sémantique en mettant en œuvre un système de reconnaissance des entités nommées. Dans ce contexte, nous présentons un système d'analyse du Moyen Français qui est une langue en pleine évolution dont l’orthographe, le système flexionnel et la syntaxe ne sont pas stables. Les textes en Moyen Français se singularisent principalement par l’absence d’orthographe normalisée et par la variabilité tant géographique que chronologique des lexiques médiévaux.L’objectif est de mettre en évidence un système dédié à la construction de ressources linguistiques, notamment la construction des dictionnaires électroniques, se basant sur des règles de morphologie. Ensuite, nous présenterons les instructions que nous avons établies pour construire un étiqueteur morphosyntaxique qui vise à produire automatiquement des analyses contextuelles à l’aide de grammaires de désambiguïsation. Finalement, nous retracerons le chemin qui nous a conduits à mettre en place des grammaires locales permettant de retrouver les entités nommées. De ce fait, nous avons été amenés à constituer un corpus MEDITEXT regroupant des textes en Moyen Français apparus entre le fin du XIIIème et XVème siècle.