Thèse soutenue

Une méthode automatique de construction de corpus de reformulation

FR  |  
EN
Auteur / Autrice : Ioana Buhnila
Direction : Amalia Todiraşcu-CourtierDan Tufiş
Type : Thèse de doctorat
Discipline(s) : Sciences du langage
Date : Soutenance le 14/06/2023
Etablissement(s) : Strasbourg
Ecole(s) doctorale(s) : École doctorale des Humanités (Strasbourg ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Linguistique, langues, parole (Strasbourg)
Jury : Président / Présidente : Thierry Grass
Examinateurs / Examinatrices : Iris Eshkol, Verginica Barbu-Mititelu
Rapporteur / Rapporteuse : Georgeta Cislaru, Mathieu Constant

Résumé

FR  |  
EN

Notre thèse a comme objectif la mise en place d’une méthode semi-automatique de construction des corpus de reformulations sous-phrastiques médicales, en français et en roumain. Nous définissons la reformulation sous-phrastique comme l’équivalence basée sur un noyau sémantique commun, située dans l’empan d’une phrase, qui contribue à la vulgarisation médicale. Notre méthode consiste, d’une part, dans l’exploitation des corpus comparables et des marqueurs pour identifier automatiquement des termes médicaux et leurs reformulations et, d’autre part, dans l’utilisation des architectures à base de réseaux de neurones pour la reconnaissance et la génération automatique de la reformulation. Nous avons construit le premier corpus de textes de vulgarisation médicale en roumain de grande taille, GrandMed-Ro2. Nous avons annoté manuellement et réalisé une analyse linguistique de 19 890 phrases (57% ont une double annotation). Les 11 653 paires de termes médicaux - reformulations validées constituent le corpus RefoMed. Nous évaluons la lisibilité des reformulations pour le grand public et nous analysons 11 314 prédictions de reformulations générées automatiquement.