Confiance dans les données en ligne : confidentialité dans le texte et vérification sémantique de l'auteur dans les micro-messages
Auteur / Autrice : | Khodor Hammoud |
Direction : | Salima Benbernou |
Type : | Thèse de doctorat |
Discipline(s) : | Science des données |
Date : | Soutenance le 15/11/2021 |
Etablissement(s) : | Université Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique PAris DEscartes (Paris ; 1998) |
Jury : | Président / Présidente : Allel Hadj Ali |
Examinateurs / Examinatrices : Valentina Ceausu-Dragos, Yücel Saygın | |
Rapporteur / Rapporteuse : Allel Hadj Ali, Mustapha Lebbah |
Mots clés
Résumé
De nombreux problèmes émanent de la diffusion et l'utilisation des données sur les réseaux sociaux. Il est nécessaire de promouvoir la confiance sur les plateformes sociales, quant au partage et l’utilisation des données. Les données en ligne sont principalement sous forme textuelle, ce qui pose des problèmes aux solutions d'automatisation en raison de la richesse du langage naturel. De plus, l'utilisation des micro-messages comme principal moyen de communication sur les médias sociaux rend le problème beaucoup plus difficile en raison de la rareté des fonctionnalités à analyser par corps de texte. Nos expériences montrent que les solutions d'anonymat des données ne peuvent pas préserver l'anonymat des utilisateurs sans sacrifier la qualité des données. De plus, dans le domaine de la vérification d'auteur, étant donné un ensemble de documents dont l'auteur est connu, nous avons constaté très peu de travaux de recherche travaillant sur les micro-messages. Nous avons également remarqué que l'état de l'art ne prend pas en considération la sémantique des textes, les rendant vulnérables aux attaques par usurpation d'identité. Motivés par ces résultats, nous consacrons cette thèse pour aborder les tâches de (1) identifier les problèmes actuels avec l'anonymat des données utilisateur dans le texte, et fournir une première approche sémantique originale pour résoudre ce problème, (2) étudier la vérification de l'auteur en micro -messages, et développer une nouvelle approche basée sur la sémantique pour résoudre ces défis, et (3) étudier l'effet de l'inclusion de la sémantique dans la gestion des attaques de manipulation, (4) étudier l'effet temporel des données, où les auteurs pourraient avoir changer d'avis au fil du temps. La première partie de la thèse se concentre sur l'anonymat des utilisateurs dans les données textuelles sur les réseaux sociaux, dans le but d'anonymiser les informations personnelles des données des utilisateurs en ligne pour une analyse sécurisée des données sans compromettre la confidentialité des utilisateurs. Nous présentons une première approche basée sur la sémantique, qui peut être personnalisée pour équilibrer la préservation de la qualité des données et la maximisation de l'anonymat de l'utilisateur en fonction de l'application à portée de main. Dans la deuxième partie, nous étudions la vérification d'auteur dans les micro-messages sur les réseaux sociaux. Nous confirmons le manque de recherche en vérification d'auteur sur les micro-messages, et nous montrons que l'état de l'art ne fonctionne pas bien lorsqu'il est appliqué sur des micro-messages. Ensuite, nous présentons une nouvelle approche basée sur la sémantique qui utilise des inclusions de mots et une analyse des sentiments pour collecter l'historique des opinions de l'auteur afin de déterminer l'exactitude de la revendication de paternité et montrer ses performances concurrentielles sur les micro-messages. Nous utilisons ces résultats dans la troisième partie de la thèse pour améliorer encore notre approche. Nous construisons un ensemble de données composé des tweets des 88 influenceurs Twitter les plus suivis. Nous l'utilisons pour montrer que l'état de l'art n'est pas capable de gérer les attaques d'usurpation d'identité, modifiant le message derrière le tweet, tandis que le modèle d'écriture est préservé. D'autre part, puisque notre approche est consciente de la sémantique du texte, elle est capable de détecter les manipulations de texte avec une précision supérieure à 90%. Et dans la quatrième partie de la thèse, nous analysons l'effet temporel des données sur notre approche de vérification d'auteur.Nous étudions l'évolution des opinions des auteurs au fil du temps et comment s'en accommoder dans notre approche. Nous étudions les tendances des sentiments d'un auteur pour un sujet spécifique sur une période de temps et prédisons les fausses allégations de paternité en fonction de la période dans laquelle se situe la revendication.