Thèse soutenue

Exploration de micro-posts d'actualité : représentation, structuration et description

FR  |  
EN
Auteur / Autrice : Olivier Gracianne
Direction : Thi Bich Hanh Dao
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2023
Etablissement(s) : Orléans
Ecole(s) doctorale(s) : École doctorale Mathématiques, Informatique, Physique Théorique et Ingénierie des Systèmes (Centre-Val de Loire ; 2012-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique fondamentale d'Orléans (Orléans ; 1987-....)
Jury : Président / Présidente : Jean-Yves Antoine
Examinateurs / Examinatrices : Mathieu Valette, Christel Vrain
Rapporteurs / Rapporteuses : Hubert Naacke, Mathieu Roche

Résumé

FR  |  
EN

Les réseaux sociaux où sont échangés des messages courts sont devenus des sources de premier choix pour le suivi d'objet d'actualités. Les sources de ce relais d'information sont ainsi très variées, permettant de couvrir la grande majorité des aspects de ces objets. De plus, l'information est diffusée quasiment en temps réel. Traiter les données issues de ce type de plate-forme est donc devenu un objectif clef pour le monde de la recherche comme celui de l'industrie. Les présents travaux portent sur l'exploitation de ces données. L'objectif est de décrire les données issues de tels réseaux pour permettre de les rendre accessibles à un utilisateur final. Nous proposons de traiter le problème à travers la représentation, la structuration et finalement la description des données reçues. Pour pouvoir baser nos raisonnements et procédures sur la sémantique véhiculée par les données, nous procédons à leur changement de représentation. Cette étape est opérée avec un modèle d'apprentissage automatique adapté à nos besoins, Doc2Vec, produisant des représentations sémantiques raffinées. Ces vecteurs peuvent ensuite être exploités pour détecter la structuration sous-jacente de ces données. Cette étape prend la forme d'un clustering basé sur la mesure de similarité accessible dans l'espace de représentation des micro-posts captés. Ce découpage permet d'identifier les manifestations de la cible écoutée que l'on peut repérer dans les données. Nous proposons finalement d'exploiter cette partition et le contenu des messages pour identifier des composants de descriptions pertinents. Ces descripteurs, issu du corps même des messages, doivent être représentatifs de l'ensemble où ils ont été sélectionnés. Ils permettent ainsi la construction de description de la partition. Nous introduisons d'abord à cette fin un modèle de Programmation Linéaire en Nombres Entiers, et ensuite une méthodologie basée sur le clustering et la mesure de l'impact des mots sur la position du vecteur de leur document. C'est finalement à travers l'ensemble formé par les descriptions des aspects de la cible écoutée sur les réseaux que nous proposons de la décrire.