Thèse soutenue

Détection des discours haineux dans les réseaux sociaux : apport des expressions polylexicales

FR  |  
EN
Auteur / Autrice : Nicolas Zampieri
Direction : Irina IllinaDominique Fohr
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Agata Savary
Examinateurs / Examinatrices : Irina Illina, Farah Benamara, Richard Dufour, Frédéric Béchet, Claire Gardent
Rapporteurs / Rapporteuses : Farah Benamara, Richard Dufour

Résumé

FR  |  
EN

Au cours de ces dernières décennies, l'utilisation d'Internet s'est répandue de manière exponentielle, notamment avec l'avènement des réseaux sociaux. Cependant, cette augmentation de l'utilisation des médias sociaux a engendré une prolifération des messages néfastes, tels que les discours haineux. Les discours haineux sont des formes de communication dégradantes qui ciblent spécifiquement un individu ou un groupe, pouvant mener à des menaces et à des actes de violence. Les modèles basés sur l'apprentissage profond sont rapidement devenus une solution pour détecter les discours haineux. Cependant, ces modèles nécessitent une quantité considérable de données d'apprentissage pour atteindre des niveaux de performance élevés. Pour palier au problème de la quantité de données d'apprentissage, qui est restreinte pour la détection de la haine, certaines caractéristiques peuvent être efficaces en entrée de réseaux neuronaux. Dans cette thèse, nous explorons deux principaux axes de recherches visant à améliorer les performances de classification des discours haineux. Nos approches sont validées sur quatre ensembles de données distincts, permettant ainsi une évaluation approfondie de leur efficacité pour la détection des discours haineux. Dans la première partie de notre étude, nous proposons d'améliorer la détection des discours haineux en intégrant des caractéristiques spécifiques dans un réseau de neurones basé sur les plongements (embeddings) de phrases. Plus précisément, nous examinons l'incorporation de caractéristiques telles que la casse des mots, les émojis, les mots présents dans un dictionnaire de termes haineux, les parties du discours et la ponctuation. Notre approche consiste à développer un réseau neuronal qui intègre ces caractéristiques au niveau des mots, en complément des plongements de phrases. Nous montrons que l'utilisation des émojis améliore significativement les performances de détection des discours haineux. Ensuite, nous nous intéressons à l'intégration de caractéristiques peu explorées jusqu'à présent dans la détection des discours haineux : les expressions polylexicales. Nous menons une étude approfondie sur la robustesse des systèmes d'identification de ces expressions dans les tweets. Cette étude nous permet d'évaluer différents systèmes pour l'identification des expressions polylexicales dans les tweets, afin d'annoter automatiquement les jeux de données destinés à la détection des discours haineux en termes d'expressions polylexicales. Nous montrons que les systèmes basés sur l'apprentissage profond surpassent ceux basés sur les dictionnaires dans cette tâche. De plus, nous proposons un système en deux étapes qui combine à la fois le système basé sur l'apprentissage profond et celui basé sur les dictionnaires. Celui-ci surpasse les deux systèmes existants pour l'identification des expressions polylexicales dans les tweets. Puis, nous développons deux réseaux de neurones qui s'appuient sur les plongements de phrases et intègrent les expressions polylexicales de manière différente. Nous montrons une amélioration significative des performances sur la tâche de détection des discours haineux en utilisant les informations sur les expressions polylexicales. Dans la seconde partie, nous explorons différentes approches d'apprentissage pour améliorer les performances de la détection des discours haineux. Nous nous intéressons tout d'abord à l'impact de l'apprentissage multi-tâches. Pour cela, nous proposons un réseau neuronal basé sur l'attention multi-têtes pour l'apprentissage multi-tâches. Notre système est conçu pour apprendre simultanément deux tâches : la détection des discours haineux et l'identification des expressions polylexicales. Nous montrons qu'apprendre en simultané l'attention sur les expressions polylexicales et sur les discours haineux améliore la détection de ces derniers.