Thèse soutenue

Prédiction de l'activité dans les réseaux sociaux

FR  |  
EN
Auteur / Autrice : François Kawala
Direction : Éric GaussierAhlame Douzal-Chouakria
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 12/10/2015
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de Grenoble - Laboratoire d'Informatique de Grenoble
Jury : Président / Présidente : Christine Largeron
Rapporteurs / Rapporteuses : Jean loup Guillaume, Georges Linares

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette étude est dédiée à un problème d’exploration de données dans les médias sociaux: la prédiction d’activité. Dans ce problème nous essayons de prédire l’activité associée à une thématique pour un horizon temporel restreint. Dans ce problème des contenus générés par différents utilisateurs, n’ayant pas de lien entre eux, contribuent à l’activité d’une même thématique.Afin de pouvoir définir et étudier la prédiction d’activité sans référence explicite à un réseau social existant, nous définissons un cadre d’analyse générique qui permet de décrire de nombreux médias sociaux. Trois définitions de la prédiction d’activité sont proposées. Premièrement la prédiction de la magnitude d’activité, un problème de régression qui vise à prédire l’activité exacte d’une thématique. Secondement, la prédiction de Buzz, un problème de classification binaire qui vise à prédire quelles thématiques subiront une augmentation soudaine d’activité. Enfin la prédiction du rang d’activité, un problème de learning-to-rank qui vise à prédire l’importance relative de chacune des thématiques. Ces trois problèmes sont étudiés avec les méthodes de l’état de l’art en apprentissage automatique. Les descripteurs proposés pour ces études sont définis en utilisant le cadre d’analyse générique. Ainsi il est facile d’adapter ces descripteurs à différent média sociaux.Notre capacité à prédire l’activité des thématiques est testée à l’aide d’un ensemble de données multilingue: Français, Anglais et Allemand. Les données ont été collecté durant 51 semaines sur Twitter et un forum de discussion. Plus de 500 millions de contenus générés par les utilisateurs ont été capturé. Une méthode de validation croisée est proposée afin de ne pas introduire de biais expérimental lié au temps. De plus, une méthode d’extraction non-supervisée des candidats au buzz est proposée. En effet, les changements abrupts de popularité sont rares et l’ensemble d’entraˆınement est très déséquilibré. Les problèmes de prédiction de l’activité sont étudiés dans deux configurations expérimentales différentes. La première configuration expérimentale porte sur l’ensemble des données collectées dans les deux médias sociaux, et sur les trois langues observées. La seconde configuration expérimentale porte exclusivement sur Twitter. Cette seconde configuration expérimentale vise à améliorer la reproductibilité de nos expériences. Pour ce faire, nous nous concentrons sur un sous-ensemble des thématiques non ambigu¨es en Anglais. En outre, nous limitons la durée des observations à dix semaines consécutives afin de limiter les risques de changement structurel dans les données observées.