Thèse soutenue

Fouille des médias sociaux français : expertise et sentiment

FR  |  
EN
Auteur / Autrice : Amine Abdaoui
Direction : Jérôme AzéSandra Bringay
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/12/2016
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Pascal Poncelet
Examinateurs / Examinatrices : Jérôme Azé, Sandra Bringay, Pascal Poncelet, Julien Velcin, Andrea Tagarelli, Alexandre Allauzen, Philippe Lenca
Rapporteurs / Rapporteuses : Julien Velcin, Andrea Tagarelli

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les médias sociaux ont changé notre manière de communiquer entre individus, au sein des organisations et des communautés. La disponibilité de ces données sociales ouvre de nouvelles opportunités pour comprendre et influencer le comportement des utilisateurs. De ce fait, la fouille des médias sociaux connait un intérêt croissant dans divers milieux scientifiques et économiques. Dans cette thèse, nous nous intéressons spécifiquement aux utilisateurs de ces réseaux et cherchons à les caractériser selon deux axes : (i) leur expertise et leur réputation et (ii) les sentiments qu’ils expriment.De manière classique, les données sociales sont souvent fouillées selon leur structure en réseau. Cependant, le contenu textuel des messages échangés peut faire émerger des connaissances complémentaires qui ne peuvent être connues via la seule analyse de la structure. Jusqu’à récemment, la majorité des travaux concernant l’analyse du contenu textuel était proposée pour l’Anglais. L’originalité de cette thèse est de développer des méthodes et des ressources basées sur le contenu pour la fouille des réseaux sociaux pour la langue Française.Dans le premier axe, nous proposons d'abord d’identifier l'expertise des utilisateurs. Pour cela, nous avons utilisé des forums qui recrutent des experts en santé pour apprendre des modèles de classification qui servent à identifier les messages postés par les experts dans n’importe quel autre forum. Nous démontrons que les modèles appris sur des forums appropriés peuvent être utilisés efficacement sur d’autres forums. Puis, dans un second temps, nous nous intéressons à la réputation des utilisateurs dans ces forums. L’idée est de rechercher les expressions de confiance et de méfiance exprimées dans les messages, de rechercher les destinataires de ces messages et d’utiliser ces informations pour en déduire la réputation des utilisateurs. Nous proposons une nouvelle mesure de réputation qui permet de pondérer le score de chaque réponse selon la réputation de son auteur. Des évaluations automatiques et manuelles ont démontré l’efficacité de l’approche.Dans le deuxième axe, nous nous sommes focalisés sur l’extraction de sentiments (polarité et émotion). Pour cela, dans un premier temps, nous avons commencé par construire un lexique de sentiments et d’émotions pour le Français que nous appelons FEEL (French Expanded Emotion Lexicon). Ce lexique est construit de manière semi-automatique en traduisant et en étendant son homologue Anglais NRC EmoLex. Nous avons ensuite comparé FEEL avec les lexiques Français de la littérature sur des benchmarks de référence. Les résultats ont montré que FEEL permet d’améliorer la classification des textes Français selon leurs polarités et émotions. Dans un deuxième temps, nous avons proposé d’évaluer de manière assez exhaustive différentes méthodes et ressources pour la classification de sentiments en Français. Les expérimentations menées ont permis de déterminer les caractéristiques utiles dans la classification de sentiments pour différents types de textes. Les systèmes appris se sont montrés particulièrement efficaces sur des benchmarks de référence. De manière générale, ces travaux ont ouvert des perspectives prometteuses sur diverses tâches d’analyse des réseaux sociaux pour la langue française incluant: (i) combiner plusieurs sources pour transférer la connaissance sur les utilisateurs des réseaux sociaux; (ii) la fouille des réseaux sociaux en utilisant les images, les vidéos, les géolocalisations, etc. et (iii) l'analyse multilingues de sentiment.