Détecter et neutraliser la nouvelle génération de robots de grattage web
Auteur / Autrice : | Elisa Chiapponi |
Direction : | Marc Dacier |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de l'ingénieur |
Date : | Soutenance le 07/11/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes ; 1992-....) |
Jury : | Président / Présidente : Davide Balzarotti |
Examinateurs / Examinatrices : Leyla Bilge, Olivier Thonnard, Xianghang Mi | |
Rapporteur / Rapporteuse : Roberto Di Pietro, Benoît Donnet |
Résumé
Chaque jour, une guerre invisible pour les données se déroule entre les sites de commerce électronique et les acteurs qui,en siphonnent les données, sont appelés ''scrapers'' . Les sites de commerce électronique détiennent les données au cœur du conflit et souhaitent les fournir uniquement aux utilisateurs légitimes. Les scrapers veulent un accès illimité et continu aux données susmentionnées pour en tirer profit. Pour atteindre cet objectif, les scrapers envoient de grandes quantités de requêtes aux sites de commerce électronique, ce qui leur cause des problèmes financiers. Cela a conduit l'industrie de la sécurité à s'engager dans une course aux armements contre les scrapers afin de créer de meilleurs systèmes pour détecter et contrer leurs activités. À l'heure actuelle, la bataille se poursuit, mais les scrapers semblent avoir le dessus, notamment grâce à leur utilisation de Proxies IP Résidentiels (RESIPs). Dans cette thèse, nous visons à rééquilibrer la balance des forces en introduisant de nouvelles techniques de détection et d'atténuation qui surmontent les limitations des méthodes actuelles. Nous proposons une technique inspirée des ''pots de miel'' qui piège les scrapers en leur faisant croire qu'ils ont obtenu les données visées tandis qu'ils reçoivent des informations modifiées. Nous présentons deux nouvelles techniques de détection basées sur des mesures de réseau qui identifient les requêtes émanant de scrapers cachés derrière les infrastructures RESIP. À travers un partenariat en cours avec Amadeus IT Group, nous validons nos résultats en utilisant des données opérationnelles réelles. Conscients que les scrapers ne cesseront pas de chercher de nouvelles façons d'éviter la détection et l'atténuation, nous offrons des contributions qui peuvent aider à élaborer les prochaines armes défensives pour lutter contre les scrapers. Nous proposons une caractérisation complète des RESIPs, la plus puissante arme actuellement à la disposition des scrapers. De plus, nous examinons la possibilité d'acquérir des renseignements sur les menaces liées aux scrapers en les géolocalisant lorsqu'ils envoient des demandes via un RESIP.