Extension des données de formation pour la classification réseaux neuronaux pour la classification des discours haineux
Auteur / Autrice : | Ashwin Geet D'Sa |
Direction : | Irina Illina, Dominique Fohr |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 06/05/2022 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications |
Jury : | Président / Présidente : Georges Linarès |
Examinateurs / Examinatrices : Irina Illina, Dominique Fohr, Richard Dufour, Pavel Král, François Portet, Christophe Cerisara, Josiane Mothe | |
Rapporteur / Rapporteuse : Richard Dufour, Pavel Král |
Mots clés
Résumé
L'augmentation phénoménale de l'utilisation d'Internet, qui permet la diffusion d'opinions, a également entraîné une augmentation des discours de haine en ligne. Les discours de haine sont des comportements de communication antisociaux, qui conduisent à des menaces ou à des violences envers un individu ou un groupe. Les modèles basés sur l'apprentissage profond sont devenus la solution état de l'art pour détecter les discours de haine. Cependant, la performance de ces modèles dépend de la quantité de données d'entraînement étiquetées. Dans cette thèse, nous explorons différentes solutions pour augmenter les données d'entraînement afin de d'entrainer un modèle performant pour la classification des discours de haine. Comme première approche, nous proposons d'utiliser apprentissage semi-supervisé pour combiner une grande quantité de données non étiquetées, facilement disponibles sur Internet, avec une quantité limitée de données étiquetées pour entraîner un classifieur. Pour cela, nous utilisons l'algorithme de propagation d'étiquettes. La performance de cette méthode dépend de l'espace de représentation des données. Nous montrons que les plongement (embeddings) de phrases pré-entraînés sont agnostiques et donnent de mauvais résultats. Nous proposons une approche simple et efficace basée sur les réseaux de neurones pour transformer ces représentations pré-entraînées en représentations adaptées à la tache de détection de la haine. Cette méthode permet d'améliorer considérablement les performances dans des scénarios à faibles ressources. Nous explorons les trois approches proposées dans des scénarios à faibles ressources et nous montrons qu'elles permettent d'améliorer considérablement les performances dans des configurations à très faibles ressources. Dans notre deuxième approche proposée, nous explorons une méthode d'augmentation de données (data augmentation), une solution pour générer des échantillons synthétiques en utilisant les données d'entraînement originales. Notre technique d'augmentation des données est basée sur un modèle de langage conditionnel GPT-2 ajusté (fine-funing) sur les données d'entraînement originales. Notre approche utilise un modèle BERT pour sélectionner des données synthétiques de bonne qualité. Nous étudions l'effet de la quantité de données générées et montrons que l'utilisation de quelques milliers d'échantillons synthétiques permet d'améliorer considérablement les performances de la classification des discours haineux. Notre évaluation qualitative montre l'efficacité de l'utilisation de BERT pour filtrer les échantillons générés. Dans notre approche finale, nous utilisons l'apprentissage multi-tâches comme méthode pour combiner plusieurs corpus disponibles de discours haineux et entraîner conjointement un seul modèle de classification. Notre approche exploite les avantages d'un modèle de langage pré-entraîné (BERT) pour les couches partagées de notre architecture multi-tâches. Nous considérons un corpus de discours de haine comme une tâche. Ainsi, nous adaptons le paradigme de l'apprentissage multi-tâches à l'apprentissage multi-corpus. Nous montrons que le réglage fin du modèle multi-tâches pour un corpus spécifique permet d'améliorer les résultats. De plus, notre méthode a obtenu de bonnes performances dans le cadre de l'adaptation au domaine (domain adaptation).