Thèse soutenue

Résumé automatique abstractif des textes médicaux longs avec un Transformer à multi-encodeurs et évaluation de résumé du domaine général avec wikiSERA

FR  |  
EN
Auteur / Autrice : Jessica López Espejel
Direction : Thierry Charnois
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/05/2021
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury : Président / Présidente : Xavier Tannier
Examinateurs / Examinatrices : Xavier Tannier, Benoît Favre, Gaël de Chalendar, Nathalie Pernelle
Rapporteurs / Rapporteuses : Juan-Manuel Torres-Moreno, Benoît Favre

Résumé

FR  |  
EN

Les dernières statistiques faites par l’IDC (International Data Corporation)1 montrent que le volume d’information en exabytes dans le domaine médical a augmenté de plus de 1400% entre les années 2013 et 2020. Cette croissance monstrueuse fait que des sites tel que "PubMed" (for Biotechnology Information, 2018) de "MEDLINE" (Solutions, 2021) et "Dimensions" contiennent à présent des millions d’articles médicaux portant sur des sujets variés. Cependant, et afin de suivre le rapide progrès dans le domaine médical, les chercheurs et les médecins ont besoin d’accéder aux informations pertinentes le plus rapidement possible. Grâce à l’intelligence artificielle et les avancements dans le traitement automa tique du langage naturel, le domaine du résumé automatique de textes a émergé pour le but de proposer des solutions efficaces afin de transformer un ou plusieurs textes longs en un résumé de petite taille concentrant leur information la plus utile. Les premiers travaux dans le domaine du résumé automatique étaient extractifs, où les phrases les plus pertinentes du texte sont copiées et concaténées afin de construire le résumé. Avec l’apparition de l’apprentissage profond, le résumé automatique est basé désormais sur des approches abstractives, où le système reformule le texte en un résumé qui ne contient pas forcément des mots du texte original. Malgré l’évolution dans le domaine du résumé automatique, il est nécessaire d’évaluer automatiquement la qualité des résumés générés afin de pouvoir com parer et améliorer les différentes approches de l’état de l’art. Ceci dit que le domaine d’évaluation automatique des résumés est aussi important pour le fait que l’évaluation manuelle est coûteuse en termes d’argent et de temps, même si elle constitue la meilleure référence d’évaluation. Il existe deux types d’approches automatiques d’évaluation de résumé : celles qui nécessitent une intervention humaine (telles que ROUGE (Lin, 2004) et SERA (Co han and Goharian, 2016)), et celles qui ne la nécessitent pas (telles que SummTriver (Cabrera Diego and Torres-Moreno, 2018) et FRESA (Torres-Moreno et al., 2010)). Les dernières approches ont l’avantage de fonctionner sans avoir besoin d’un résumé 1https://www.idc.com/ 196 Appendix B. Résumé en français de référence, mais elles ont jusqu’à présent une faible corrélation avec les méthodes d’évaluation manuelles. Dans cette thèse, nous nous focalisons sur le résumé automatique abstractif des textes médicaux longs, ainsi que l’évaluation automatique des résumés appartenant au domaine général. Pour la première problématique, nous proposons une amélioration de l’architecture originale des réseaux de neurones de type Transformers. Notre méthode (appelée HazP i) consiste à augmenter le nombre d’encodeurs du modèle en découpant l’entrée entre eux afin de concentrer l’attention du modèle sur des sous parties du texte (Multi-encoder Transformer). En plus, notre méthode favorise l’apprentissage progressif en présentant les résumés au décodeur partie par partie jusqu’à la consommation de toute la séquence (End-chunk Task Training). Nous menons des expérimentations sans et avec pré-entraînement du modèle sur des datasets médicales et les résultats obtenus sont encourageants en comparant HazP i avec des méthodes compétitives de l’état de l’art. Pour la deuxième problématique, nous présentons wikiSERA, une amélioration de la méthode SERA pour l’évaluation automatique des résumés biomédicaux en se basant sur l’intervention humaine. SERA est basée sur une analyse de la pertinence de contenu entre un résumé candidat et un ensemble de résumés de référence à l’aide d’un moteur de recherche qui compare les résultats de recherche dans un ensemble de documents qui constituent l’index, avec comme requêtes en entrée d’une part les résumés de référence et d’autre part les résumés automatiques...