Détection et analyse d'une thématique rare dans de grands ensembles de requêtes : l'activité pédophile dans le P2P
Auteur / Autrice : | Raphaël Fournier-S'niehotta |
Direction : | Matthieu Latapy |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2012 |
Etablissement(s) : | Paris 6 |
Mots clés
Mots clés contrôlés
Résumé
L'objectif de cette thèse est d'utiliser de grands ensembles de requêtescollectés sur des systèmes P2P pour étudier l'activité pédophile au sein de ces réseaux. Afin de détecter les requêtes qui ciblent des contenus pédopornographiques, nousconcevons un outil capable de les distinguer. Nous faisons ensuite classer desrequêtes par des experts, pour évaluer les performances de cet outil. Celui-cidisposant d'une précision élevée et d'un bon rappel, nous l'utilisons pour estimerde façon fiable la fraction de requêtes pédophiles, proche de 0,25%. Nous abordons ensuite la quantification des utilisateurs entrant ces requêtes,ce qui est difficile car l'on ne dispose que de l'adresse IP et éventuellementd'un port de communication. Nous étudions les erreurs de détection commises surles utilisateurs et estimons que la fraction d'utilisateurs pédophiles estproche de 0,22%. Nous analysons ensuite la dynamique temporelle de l'activité pédophile. Nousobservons que la fraction de requêtes pédophiles a significativement augmentéentre 2009 et 2012. Nous constatons que les utilisateurs pédophiles privilégientla fin de la nuit pour effectuer ce type de requêtes, ce en quoi ils diffèrentdes autres utilisateurs, notamment ceux soumettant des requêtes pornographiques. Enfin, nous confrontons les résultats obtenus sur le réseau eDonkey avec ceux duréseau KAD, après avoir obtenu des données comparables. Nous constatons que KAD,complètement décentralisé et supposé plus anonyme qu'eDonkey, présente uneactivité pédophile plus faible que ce dernier. Nous estimons que la fraction derequêtes pédophiles sur KAD est proche de 0. 1%