Thèse soutenue

Détection des textes non-naturels

FR  |  
EN
Auteur / Autrice : Thomas Lavergne
Direction : François Yvon
Type : Thèse de doctorat
Discipline(s) : Informatique et réseaux
Date : Soutenance en 2009
Etablissement(s) : Paris, Télécom ParisTech

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse porte sur la détection des textes non-naturels, en particulier dans le cadre de la lutte contre le spam sur le Web. L'enjeu est d'améliorer la qualité des résultats des moteurs de recherche en distinguant de manière automatique les contenus légitimes des faux contenus. Dans une première partie, la thèse se concentre sur une étude des différentes formes de faux contenus présents sur le Web, la manière dont ils sont utilisés dans le cadre du spam et les techniques actuelles permettant de les détecter. Dans un second temps, le problème général de la nature des textes non-naturels est abordé. Trois définitions sont proposées et illustrées au travers d'une taxonomie de ces textes, la dernière étant une définition pragmatique utilisable dans le cadre d'une détection automatique de ces textes. La troisième partie propose des méthodes de détection adaptées aux différents types de textes non-naturels rencontrés dans le cadre du spam Web. Les approches envisagées, basées sur des modèles statistiques, exploitent à la fois la structure et le contenu des textes et sont validées aussi bien sur des données synthétiques que sur des données réelles.