Thèse soutenue

Indexation aléatoire et similarité inter-phrases appliquées au résumé automatique

FR  |  
EN
Auteur / Autrice : Hai Hieu Vu
Direction : Pierre-François MarteauJeanne Villaneau
Type : Thèse de doctorat
Discipline(s) : Stic
Date : Soutenance le 29/01/2016
Etablissement(s) : Lorient
Ecole(s) doctorale(s) : École doctorale Santé, information-communication et mathématiques, matière (Brest, Finistère)
Partenaire(s) de recherche : COMUE : Université Bretagne Loire (2016-2019)
Laboratoire : Laboratoire de Mathématiques de Bretagne Atlantique - / Laboratoire de Mathématiques de Bretagne Atlantique
Jury : Examinateurs / Examinatrices : Farida Saïd, Emmanuel Morin
Rapporteurs / Rapporteuses : Gwénolé Lecorvé, Sophie Rosset

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Face à la masse grandissante des données textuelles présentes sur le Web, le résumé automatique d'une collection de documents traitant d'un sujet particulier est devenu un champ de recherche important du Traitement Automatique des Langues. Les expérimentations décrites dans cette thèse s'inscrivent dans cette perspective. L'évaluation de la similarité sémantique entre phrases est l'élément central des travaux réalisés. Notre approche repose sur la similarité distributionnelle et une vectorisation des termes qui utilise l'encyclopédie Wikipédia comme corpus de référence. Sur la base de cette représentation, nous avons proposé, évalué et comparé plusieurs mesures de similarité textuelle ; les données de tests utilisées sont celles du défi SemEval 2014 pour la langue anglaise et des ressources que nous avons construites pour la langue française. Les bonnes performances des mesures proposées nous ont amenés à les utiliser dans une tâche de résumé multi-documents, qui met en oeuvre un algorithme de type PageRank. Le système a été évalué sur les données de DUC 2007 pour l'anglais et le corpus RPM2 pour le français. Les résultats obtenus par cette approche simple, robuste et basée sur une ressource aisément disponible dans de nombreuses langues, se sont avérés très encourageants