Détection des textes non-naturels

by Thomas Lavergne

Doctoral thesis in Informatique et réseaux

Under the supervision of François Yvon.

defended on 2009

in Paris, Télécom ParisTech .

  • Alternative Title

    Unnatural language detection


  • Abstract

    Cette thèse porte sur la détection des textes non-naturels, en particulier dans le cadre de la lutte contre le spam sur le Web. L'enjeu est d'améliorer la qualité des résultats des moteurs de recherche en distinguant de manière automatique les contenus légitimes des faux contenus. Dans une première partie, la thèse se concentre sur une étude des différentes formes de faux contenus présents sur le Web, la manière dont ils sont utilisés dans le cadre du spam et les techniques actuelles permettant de les détecter. Dans un second temps, le problème général de la nature des textes non-naturels est abordé. Trois définitions sont proposées et illustrées au travers d'une taxonomie de ces textes, la dernière étant une définition pragmatique utilisable dans le cadre d'une détection automatique de ces textes. La troisième partie propose des méthodes de détection adaptées aux différents types de textes non-naturels rencontrés dans le cadre du spam Web. Les approches envisagées, basées sur des modèles statistiques, exploitent à la fois la structure et le contenu des textes et sont validées aussi bien sur des données synthétiques que sur des données réelles.


  • Abstract

    This thesis concerns unnatural language detection, especially in the context of fighting web spam. The main goal is to improve the quality of results produced by web search engines by automatically distinguishing between legitimate and fake content. In the first part, the thesis focuses on various kinds of fake content that can be found on the web, how it can be used to generate Web spam, and on the existing methods used to detect it. In the second part, a more general problem of the essence of unnatural texts is studied. Three definitions are proposed and illustrated through a taxonomy of such texts, the last one being a pragmatic definition usable in the context of automatic detection of unnatural texts. Te last part describes detection methods adapted to the different kinds of unnatural texts found in Web spam. These methods, based on statistical models, use the structure as well as the content of texts and are validated on both synthetic and real data.

Consult library

Version is available as a paper

Informations

  • Details : 1 vol. (185p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 206 réf. bibliogr. Résumé en français et en anglais

Where is this thesis?

  • Library : Télécom Paris. Centre de ressources documentaires numériques (CRDN).
  • Available on site in the applicant institution
  • Odds : 0.32 LAVE

This version is also available in microfiche :

  • Library : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Unvailable for PEB
  • Odds : 2009ENST0074
See the Sudoc catalog libraries of higher education and research.