Prédiction de l'activité dans les réseaux sociaux

par François Kawala

Thèse de doctorat en Informatique

Sous la direction de Éric Gaussier et de Ahlame Douzal-Chouakria.

Soutenue le 12-10-2015

à l'Université Grenoble Alpes (ComUE) , dans le cadre de École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble) , en partenariat avec Laboratoire d'informatique de Grenoble (laboratoire) et de Laboratoire d'Informatique de Grenoble (laboratoire) .

Le président du jury était Christine Largeron.

Les rapporteurs étaient Jean loup Guillaume, Georges Linares.


  • Résumé

    Cette étude est dédiée à un problème d’exploration de données dans les médias sociaux: la prédiction d’activité. Dans ce problème nous essayons de prédire l’activité associée à une thématique pour un horizon temporel restreint. Dans ce problème des contenus générés par différents utilisateurs, n’ayant pas de lien entre eux, contribuent à l’activité d’une même thématique.Afin de pouvoir définir et étudier la prédiction d’activité sans référence explicite à un réseau social existant, nous définissons un cadre d’analyse générique qui permet de décrire de nombreux médias sociaux. Trois définitions de la prédiction d’activité sont proposées. Premièrement la prédiction de la magnitude d’activité, un problème de régression qui vise à prédire l’activité exacte d’une thématique. Secondement, la prédiction de Buzz, un problème de classification binaire qui vise à prédire quelles thématiques subiront une augmentation soudaine d’activité. Enfin la prédiction du rang d’activité, un problème de learning-to-rank qui vise à prédire l’importance relative de chacune des thématiques. Ces trois problèmes sont étudiés avec les méthodes de l’état de l’art en apprentissage automatique. Les descripteurs proposés pour ces études sont définis en utilisant le cadre d’analyse générique. Ainsi il est facile d’adapter ces descripteurs à différent média sociaux.Notre capacité à prédire l’activité des thématiques est testée à l’aide d’un ensemble de données multilingue: Français, Anglais et Allemand. Les données ont été collecté durant 51 semaines sur Twitter et un forum de discussion. Plus de 500 millions de contenus générés par les utilisateurs ont été capturé. Une méthode de validation croisée est proposée afin de ne pas introduire de biais expérimental lié au temps. De plus, une méthode d’extraction non-supervisée des candidats au buzz est proposée. En effet, les changements abrupts de popularité sont rares et l’ensemble d’entraˆınement est très déséquilibré. Les problèmes de prédiction de l’activité sont étudiés dans deux configurations expérimentales différentes. La première configuration expérimentale porte sur l’ensemble des données collectées dans les deux médias sociaux, et sur les trois langues observées. La seconde configuration expérimentale porte exclusivement sur Twitter. Cette seconde configuration expérimentale vise à améliorer la reproductibilité de nos expériences. Pour ce faire, nous nous concentrons sur un sous-ensemble des thématiques non ambigu¨es en Anglais. En outre, nous limitons la durée des observations à dix semaines consécutives afin de limiter les risques de changement structurel dans les données observées.

  • Titre traduit

    Activity prediction in social-networks


  • Résumé

    This dissertation is devoted to a social-media-mining problem named the activity-prediction problem. In this problem one aims to predict the number of user-generated-contents that will be created about a topic in the near future. The user-generated-contents that belong to a topic are not necessary related to each other.In order to study the activity-prediction problem without referring directly to a particular social-media, a generic framework is proposed. This generic framework allows to describe various social-media in a unified way. With this generic framework the activityprediction problem is defined independently of an actual social-media. Three examples are provided to illustrate how this generic framework describes social-media. Three defi- nitions of the activity-prediction problem are proposed. Firstly the magnitude prediction problem defines the activity-prediction as a regression problem. With this definition one aims to predict the exact activity of a topic. Secondly, the buzz classification problem defines the activity-prediction as a binary classification problem. With this definition one aims to predict if a topic will have an activity burst of a predefined amplitude. Thirdly the rank prediction problem defines the activity-prediction as a learning-to-rank problem. With this definition one aims to rank the topics accordingly to theirs future activity-levels. These three definitions of the activity prediction problem are tackled with state-of-the-art machine learning approaches applied to generic features. Indeed, these features are defined with the help of the generic framework. Therefore these features are easily adaptable to various social-media. There are two types of features. Firstly the features which describe a single topic. Secondly the features which describe the interplay between two topics.Our ability to predict the activity is tested against an industrial-size multilingual dataset. The data has been collected during 51 weeks. Two sources of data were used: Twitter and a bulletin-board-system. The collected data contains three languages: English, French and German. More than five hundred millions user-generated-contents were captured. Most of these user-generated-contents are related to computer hardware, video games, and mobile telephony. The data collection necessitated the implementation of a daily routine. The data was prepared so that commercial-contents and technical failure are not sources of noise. A cross-validation method that takes into account the time of observations is used. In addition an unsupervised method to extract buzz candidates is proposed. Indeed the training-sets are very ill-balanced for the buzz classification problem, and it is necessary to preselect buzz candidates. The activity-prediction problems are studied within two different experimental settings. The first experimental setting includes data from Twitter and the bulletin-board-system, on a long time-scale, and with three different languages. The second experimental setting is dedicated specifically to Twitter. This second experiment aims to increase the reproducibility of experiments as much as possible. Hence, this experimental setting includes user-generated-contents collected with respect to a list of unambiguous English terms. In addition the observation are restricted to ten consecutive weeks. Hence the risk of unannounced change in the public API of Twitter is minimized.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Grenoble Alpes. Bibliothèque et Appui à la Science Ouverte. Bibliothèque électronique.
  • Bibliothèque : Université Savoie Mont Blanc (Chambéry-Annecy). Bibliothèques universitaires. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.