Résumé automatique multi-document dynamique
Auteur / Autrice : | Maali Mnasri |
Direction : | Gaël de Chalendar |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 20/09/2018 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Vision et Ingénierie des contenus (Gif sur Yvette) |
établissement opérateur d'inscription : Université Paris-Sud (1970-2019) | |
Jury : | Président / Présidente : Sophie Rosset |
Examinateurs / Examinatrices : Gaël de Chalendar, Jean-Luc Minel, Juan-Manuel Torres-Moreno, Olivier Ferret, Antoine Doucet | |
Rapporteur / Rapporteuse : Jean-Luc Minel, Juan-Manuel Torres-Moreno |
Mots clés
Résumé
Cette thèse s’intéresse au Résumé Automatique de texte et plus particulièrement au résumémis-à-jour. Cette problématique de recherche vise à produire un résumé différentiel d'un ensemble denouveaux documents par rapport à un ensemble de documents supposés connus. Elle intègre ainsidans la problématique du résumé à la fois la question de la dimension temporelle de l'information etcelle de l’historique de l’utilisateur. Dans ce contexte, le travail présenté s'inscrit dans les approchespar extraction fondées sur une optimisation linéaire en nombres entiers (ILP) et s’articule autour dedeux axes principaux : la détection de la redondance des informations sélectionnées et la maximisationde leur saillance. Pour le premier axe, nous nous sommes plus particulièrement intéressés àl'exploitation des similarités inter-phrastiques pour détecter, par la définition d'une méthode deregroupement sémantique de phrases, les redondances entre les informations des nouveaux documentset celles présentes dans les documents déjà connus. Concernant notre second axe, nous avons étudiél’impact de la prise en compte de la structure discursive des documents, dans le cadre de la Théorie dela Structure Rhétorique (RS), pour favoriser la sélection des informations considérées comme les plusimportantes. L'intérêt des méthodes ainsi définies a été démontré dans le cadre d'évaluations menéessur les données des campagnes TAC et DUC. Enfin, l'intégration de ces critères sémantique etdiscursif au travers d'un mécanisme de fusion tardive a permis de montrer dans le même cadre lacomplémentarité de ces deux axes et le bénéfice de leur combinaison.