Thèse soutenue

S'informer sur les médias sociaux via l'élaboration d'information synthétique

FR  |  
EN
Auteur / Autrice : Alexis Dusart
Direction : Gilles HubertKaren Pinel-Sauvagnat
Type : Thèse de doctorat
Discipline(s) : Image, Information, Hypermédia
Date : Soutenance le 16/12/2022
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de recherche en informatique de Toulouse / IRIT
Jury : Président / Présidente : Mohand Boughanem
Examinateurs / Examinatrices : Laure Soulier
Rapporteurs / Rapporteuses : Jacques Savoy, Catherine Berrut

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Les médias sociaux regorgent d'informations qui peuvent être utiles et d'intérêt. Cependant, la trop grande quantité de données présentes peut demander au lecteur un effort fastidieux afin d'accéder à l'information pertinente. Une synthèse de cette information apparaît utile voir nécessaire pour l'utilisateur afin de s'informer sans être submergé. Nous nous penchons ainsi dans ces travaux sur l'élaboration de résumés à partir du média social Twitter. L'état de l'art du résumé automatique utilise aujourd'hui des modèles de langue neuronaux, comme beaucoup de tâches du Traitement Automatique des Langues (TAL). Cependant, ces modèles ne sont pas utilisés pour le résumé automatique de flux de tweets. Ceci peut être expliqué par : (i) la difficulté de créer des jeux d'apprentissage de taille suffisante et adéquats pour ces modèles, (ii) la taille du texte à résumer, qui ne permet pas d'appliquer directement les modèles comme dans le cas de résumé classique. Dans ces travaux, nos contributions sont les suivantes : - Nous proposons deux corpus de tweets pouvant être utilisés pour l'apprentissage des modèles neuronaux. Le premier, de plus de 80 millions de tweets, est construit avec une méthode faisant également partie de nos contributions, mettant en œuvre peu d'efforts humains. Le second, non soumis au problème de la suppression de tweets, est une adaptation d'un jeu de données utilisé à l'origine pour le filtrage d'information. - Nous présentons un modèle de résumé automatique de flux de tweets basé sur un modèle de langue neuronal. Nous ajoutons la fréquence des tokens du flux pour représenter le contexte flux de tweets. - Enfin, afin de mieux comprendre les mécanismes mis en place lors du résumé et de permettre le développement de futures méthodes de résumé plus efficaces, nous explorons les représentations pré-établies de l'état de l'art pour le résumé automatique de flux de tweets.