Thèse soutenue

Extraction et fouille de données textuelles : application à la détection de la dépression, de l'anorexie et de l'agressivité dans les réseaux sociaux

FR  |  
EN
Auteur / Autrice : Iarivony Ramiandrisoa
Direction : Josiane MotheMichel Rajoelina
Type : Thèse de doctorat
Discipline(s) : Informatique et Télécommunications
Date : Soutenance le 14/12/2020
Etablissement(s) : Toulouse 3 en cotutelle avec Université d'Antananarivo
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)

Résumé

FR  |  
EN

Notre recherche porte essentiellement sur des tâches ayant une finalité applicative : détection de la dépression et de l'anorexie d'une part et détection de l'agressivité d'autre part ; cela à partir de messages postés par des utilisateurs de plates-formes de type réseaux sociaux. Nous avons également proposé une méthode non supervisée d'extraction de termes-clés. Notre première contribution porte sur l'extraction automatique de termes-clés dans des documents scientifiques ou articles de presse. Plus précisément, nous améliorons une méthode non supervisée à base de graphes. Nous avons évalué notre approche sur onze collections de données dont cinq contenant des documents longs, quatre contenants des documents courts et enfin deux contenant des documents de type article de presse. Nous avons montré que notre proposition permet d'améliorer les résultats dans certains contextes. La deuxième contribution de cette thèse est une solution pour la détection au plus tôt de la dépression et de l'anorexie. Nous avons proposé des modèles utilisant des classifieurs, s'appuyant sur la régression logistique ou les forêts d'arbres de décision, basés sur (a) des caractéristiques et (b) le plongement de phrases. Nous avons évalué nos modèles sur les collections de données de la tâche eRisk. Nous avons observé que les modèles basés sur les caractéristiques sont très performants lorsque la mesure de précision est considérée, soit pour la détection de la dépression, soit pour la détection de l'anorexie. Le modèle utilisant le plongement de phrases, quant à lui, est plus performant lorsque l'on mesure la détection au plus tôt (ERDE_50) et le rappel. Nous avons aussi obtenu de bons résultats par rapport à l'état de l'art : meilleurs résultats sur la précision et ERDE_50 pour la détection de la dépression, et sur la précision et le rappel pour la détection de l'anorexie. Notre dernière contribution concerne la détection de l'agression dans les messages postés par des utilisateurs sur les réseaux sociaux. Nous avons réutilisé les mêmes modèles que ceux utilisés pour la détection de la dépression ou de l'anorexie. À cela, nous avons ajouté d'autres modèles basés sur l'apprentissage profond. Nous avons évalué nos modèles sur les collections de données de la tâche internationale TRAC. Nous avons observé que nos modèles, utilisant l'apprentissage profond, fournissent de meilleurs résultats que nos modèles utilisant des classifieurs classiques. Nos résultats dans cette partie de la thèse sont comparables à l'état de l'art du domaine. Nous avons toutefois obtenu le meilleur résultat sur une des collections de données.