Thèse soutenue

Apport de la combinaison des connaissances structuro-linguistiques et de la fouille de textes pour la catégorisation de documents

FR  |  
EN
Auteur / Autrice : Nadia Zerida
Direction : Khaldoun Zreik
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2009
Etablissement(s) : Paris 8

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Ce travail de thèse se situe dans le difficile contexte de la linguistique et de l'informatique. Plus précisément, il s'agit de montrer l'intérêt de la prise en compte simultanée de la structure du document et des connaissances linguistiques pour la classification de documents suivant leur style. Pour cela, nous avons défini de nouveaux descripteurs, qui, combinés avec des descripteurs linguistiques exploitant la hiérarchie textuelle, sont pertinents pour caractériser des types de documents. Puis, nous avons proposée une méthode de classification fondée sur l'absence des motifs dans les documents. Une des originalités de notre travail est d'associer des méthodes linguistiques et d'apprentissage automatique à des techniques de recherche de motifs locaux. Des hypothèses donnant la priorité aux indices liées à la structure des documents, avec une relativisation du lexique sont prises en considération, d'où l'introduction d'une stratégie de hiérarchisation d'un ensemble de descripteurs hybrides multi-échelles a été définie. Cette hiérarchisation représente la structure logique du document fondée sur le principe que différentes fenêtres d'observation correspondent à des différents types d'information. Ces derniers sont reliés entre eux par le biais de la notion de l'héritage du contexte afin de préserver la cohérence globale du document. D'autre part, des hypothèses liées à la tâche de catégorisation sont émergées telle que l'exploitation de l'absence totale ou partielle de motifs sous certaines contraintes, qui peut servir à construire de nouvelles analogies pour la catégorisation des documents. Alors, en analysant par évidence les motifs à fréquences faibles ou nulles, une nouvelle approche de catégorisation par exclusion-inclusion a été proposée en introduisant une nouvelle notion telle que les motifs exclusifs