Thèse soutenue

RECONNAISSANCE DU LANGAGE DE LA FRAUDE PAR L'INTELLIGENCE ARTIFICIELLE : COMBINAISON DES APPROCHES DE TOPIC MODELING, DE STYLOMÉTRIE ET D’ANALYSE DE SENTIMENTS POUR LA DÉTECTION DE DECEPTIVE OPINION SPAM

FR  |  
EN
Auteur / Autrice : Alibek Jakupov
Direction : Besma ZeddiniJulien LonghiJulien Mercadal
Type : Thèse de doctorat
Discipline(s) : STIC (sciences et technologies de l'information et de la communication) - ED SI
Date : Soutenance le 27/11/2023
Etablissement(s) : CY Cergy Paris Université
Ecole(s) doctorale(s) : École doctorale Sciences et ingénierie (Cergy-Pontoise, Val d'Oise)
Partenaire(s) de recherche : Laboratoire : Systèmes et Applications des Technologies de l'Information et de l'Energie
Jury : Président / Présidente : Samia Bouzefrane
Examinateurs / Examinatrices : Besma Zeddini, Julien Longhi, Julien Mercadal, Antoine Doucet, Fabrice Mourlin, Sherin Moussa, Claude Duvallet
Rapporteur / Rapporteuse : Antoine Doucet, Fabrice Mourlin

Résumé

FR  |  
EN

Le Deceptive Opinion Spam prend généralement la forme de faux avis (négatifs ou positifs) postés par un internaute malveillant pour nuire à l'image d'une entreprise ou la gonfler. Comme ces avis ont été délibérément rédigés pour tromper le lecteur, les évaluateurs humains ne parviennent guère mieux que le hasard à détecter ces déclarations trompeuses. Il est donc urgent de s'attaquer à ce problème, car l'extraction de modèles textuels à partir de textes frauduleux avec des sous-structures significatives reste un défi. Dans notre recherche, pour mieux comprendre comment les mensonges sont exprimés dans les textes, nous avons d'abord considéré la tâche comme un problème de topic modeling, dans lequel nous avons construit un modèle pour apprendre les structures qui constituent une fausse critique, puis nous avons exploré les sorties de ce modèle pour identifier ces modèles. Les modèles thématiques peuvent être utiles dans cette tâche en raison de leur capacité à regrouper des documents multiples en ensembles plus petits de sujets clés. Comme les indices linguistiques des mensonges sont encore inconnus, l'un des principaux avantages de cette approche est que l'algorithme encourage les mélanges composés de quelques sujets seulement, ce qui rend la représentation plus facile à interpréter et offre des possibilités supplémentaires de révéler les formes et les structures au sein des systèmes de documents. Notre méthodologie s'est avérée utile pour cette étude, en révélant les indices lexicaux généralement utilisés par les réviseurs humains pour générer un langage trompeur. Nous avons ensuite étendu notre méthodologie en incorporant l'analyse des caractéristiques stylistiques et l'analyse des sentiments dans notre recherche. Ces techniques supplémentaires ont permis de mieux comprendre les aspects linguistiques et émotionnels des fausses critiques, ce qui nous a permis de mieux les identifier et les classer.