Une méthode automatique de construction de corpus de reformulation
Auteur / Autrice : | Ioana Buhnila |
Direction : | Amalia Todiraşcu-Courtier, Dan Tufiş |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage |
Date : | Soutenance le 14/06/2023 |
Etablissement(s) : | Strasbourg |
Ecole(s) doctorale(s) : | École doctorale des Humanités (Strasbourg ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Linguistique, langues, parole (Strasbourg) |
Jury : | Président / Présidente : Thierry Grass |
Examinateurs / Examinatrices : Iris Eshkol, Verginica Barbu-Mititelu | |
Rapporteur / Rapporteuse : Georgeta Cislaru, Mathieu Constant |
Mots clés
Mots clés contrôlés
Résumé
Notre thèse a comme objectif la mise en place d’une méthode semi-automatique de construction des corpus de reformulations sous-phrastiques médicales, en français et en roumain. Nous définissons la reformulation sous-phrastique comme l’équivalence basée sur un noyau sémantique commun, située dans l’empan d’une phrase, qui contribue à la vulgarisation médicale. Notre méthode consiste, d’une part, dans l’exploitation des corpus comparables et des marqueurs pour identifier automatiquement des termes médicaux et leurs reformulations et, d’autre part, dans l’utilisation des architectures à base de réseaux de neurones pour la reconnaissance et la génération automatique de la reformulation. Nous avons construit le premier corpus de textes de vulgarisation médicale en roumain de grande taille, GrandMed-Ro2. Nous avons annoté manuellement et réalisé une analyse linguistique de 19 890 phrases (57% ont une double annotation). Les 11 653 paires de termes médicaux - reformulations validées constituent le corpus RefoMed. Nous évaluons la lisibilité des reformulations pour le grand public et nous analysons 11 314 prédictions de reformulations générées automatiquement.