Thèse soutenue

Modélisation conjointe des thématiques et des opinions : application à l'analyse des données textuelles issues du Web

FR  |  
EN
Auteur / Autrice : Mohamed Dermouche
Direction : Sabine Loudcher RabasedaJulien Velcin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 08/06/2015
Etablissement(s) : Lyon 2
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : Equipe de recherche : Entrepôts, Représentation et Ingénierie des Connaissances
Jury : Président / Présidente : Patrick Gallinari
Examinateurs / Examinatrices : Sabine Loudcher Rabaseda, Julien Velcin, Mathieu Roche, Leila Khouas
Rapporteur / Rapporteuse : Osmar R. Zaïane, Patrice Bellot

Résumé

FR  |  
EN

Cette thèse se situe à la confluence des domaines de ''la modélisation de thématiques'' (topic modeling) et l'''analyse d'opinions'' (opinion mining). Le problème que nous traitons est la modélisation conjointe et dynamique des thématiques (sujets) et des opinions (prises de position) sur le Web et les médias sociaux. En effet, dans la littérature, ce problème est souvent décomposé en sous-tâches qui sont menées séparément. Ceci ne permet pas de prendre en compte les associations et les interactions entre les opinions et les thématiques sur lesquelles portent ces opinions (cibles). Dans cette thèse, nous nous intéressons à la modélisation conjointe et dynamique qui permet d'intégrer trois dimensions du texte (thématiques, opinions et temps). Afin d'y parvenir, nous adoptons une approche statistique, plus précisément, une approche basée sur les modèles de thématiques probabilistes (topic models). Nos principales contributions peuvent être résumées en deux points : 1. Le modèle TS (Topic-Sentiment model) : un nouveau modèle probabiliste qui permet une modélisation conjointe des thématiques et des opinions. Ce modèle permet de caractériser les distributions d'opinion relativement aux thématiques. L'objectif est d'estimer, à partir d'une collection de documents, dans quelles proportions d'opinion les thématiques sont traitées. 2. Le modèle TTS (Time-aware Topic-Sentiment model) : un nouveau modèle probabiliste pour caractériser l'évolution temporelle des thématiques et des opinions. En s'appuyant sur l'information temporelle (date de création de documents), le modèle TTS permet de caractériser l'évolution des thématiques et des opinions quantitativement, c'est-à-dire en terme de la variation du volume de données à travers le temps. Par ailleurs, nous apportons deux autres contributions : une nouvelle mesure pour évaluer et comparer les méthodes d'extraction de thématiques, ainsi qu'une nouvelle méthode hybride pour le classement d'opinions basée sur une combinaison de l'apprentissage automatique supervisé et la connaissance a priori. Toutes les méthodes proposées sont testées sur des données réelles en utilisant des évaluations adaptées.