Combining Graph and Text to Model Conversations : An Application to Online Abuse Detection

Noé Cécillon

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Combining Graph and Text to Model Conversations : An Application to Online Abuse Detection

FR |

EN

Auteur / Autrice :	Noé Cécillon
Direction :	Vincent Labatut, Richard Dufour
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 18/01/2024
Etablissement(s) :	Avignon
Ecole(s) doctorale(s) :	École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche :	Laboratoire : Laboratoire informatique d'Avignon
Jury :	Président / Présidente : Harold Mouchère
	Examinateurs / Examinatrices : Serena Villata
	Rapporteurs / Rapporteuses : Irina Illina, Julien Velcin

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Analyse du discours -- Informatique

Analyse de la conversation

Reconnaissance optique des formes (informatique)

Réseaux sociaux (Internet)

Mots clés libres

Apprentissage de representations

Détection d'abus

Conversations

Graphes

Résumé

FR |

EN

Les comportements abusifs en ligne peuvent avoir des conséquences dramatiques sur les utilisateurs et les communautés. Avec l'avènement d'internet et des réseaux sociaux, personne n'est à l'abri de ce genre de comportement. Ces dernières années, de nombreux pays ont mis en place des lois visant à réduire ce type d'abus. Une détection et un traitement rapide des cas abusifs est un facteur important afin de réduire leur impact et leur nombre. Cette tâche de modération impliquant d'importants coûts humains et financiers, les entreprises ont un gros intérêt à l'automatiser. La détection automatique de contenu abusif se révèle assez complexe. Pour contrer ce problème, il a été montré que prendre en compte le contexte dans lequel un message est posté permet d'améliorer la détection. Cependant la méthode la plus courante dans la littérature consiste à traiter des messages individuels, pris en dehors de leur contexte. Dans ce manuscrit, on s'intéresse plus particulièrement à la combinaison du contenu et de la structure pour la détection de contenu abusif. Utiliser le contenu textuel des messages est l'approche la plus courante dans la littérature. Cette méthode présente l'avantage d'être facile à mettre en place, mais elle est aussi très vulnérable aux attaques basées sur le texte, notamment aux techniques d'obfuscation. La structure de la conversation, représentant le contexte, est beaucoup moins étudiée car elle est plus complexe à manipuler. Pourtant, elle permet d'introduire une notion de contexte qui permet de détecter des cas abusifs là où le texte seul n'en est pas capable. Ce contexte peut être modélisé sous la forme d'un graphe conversationnel représentant la conversation contenant le message étudié. En comparant deux méthodes construites à partir d'un procédé d'extraction de caractéristiques (feature engineering), nous avons montré qu'une méthode n'utilisant que des graphes conversationnels et ignorant le contenu textuel des messages était capable d'obtenir de meilleures performances. Des auteurs dans la littérature suggèrent que combiner plusieurs modalités d'information permet d'améliorer la détection de messages abusifs. À cet effet, nous proposons plusieurs stratégies pour combiner le contenu et la structure des conversations et par nos expériences, nous prouvons que cela est en effet bénéfique pour la détection. Une limitation de ces méthodes basées sur un ensemble de mesures est qu'elles sont assez coûteuses tant en ressources informatiques qu'en temps de conception. Les méthodes d'apprentissage de représentations peuvent être une solution à ce problème, en permettant d'apprendre automatiquement la représentation de ces données. Pour les graphes, nous avons démontré que considérer les attributs des liens, à savoir la direction, le poids et le signe, permet d'améliorer les performances. La littérature ne proposant aucune méthode de plongement de graphe entier signé, nous comblons ce vide en développant deux méthodes de ce type. Nous les évaluons sur un benchmark nouvellement créé et constitué de trois jeux de données de graphes signés, et prouvons qu'ils obtiennent de meilleurs résultats que leurs équivalents ne prenant pas en compte les signes. Finalement, nous menons une étude comparative de plusieurs méthodes de plongement lexical et de graphes pour la détection de messages abusifs en les appliquant à un jeu de données de conversations. Nos résultats montrent qu'elles sont plus efficaces que les méthodes se basant sur un ensemble de mesures pour le texte, et légèrement moins efficaces pour les graphes. Cependant, ces résultats restent très encourageants car ces méthodes possèdent de nombreux autres avantages tels qu'être complètement indépendantes de la tâche, plus faciles à adapter à d'autres environnements d'utilisation, et beaucoup plus efficaces en termes de temps.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Combining Graph and Text to Model Conversations : An Application to Online Abuse Detection

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Combining Graph and Text to Model Conversations : An Application to Online Abuse Detection

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses