Thèse soutenue

Documents multi-structurés : de la modélisation vers l'exploitation
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Noureddine Chatti
Direction : Jean-Marie PinonSylvie Calabretto
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2006
Etablissement(s) : Lyon, INSA
Partenaire(s) de recherche : Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....)

Mots clés

FR

Résumé

FR  |  
EN

La structuration multiple des documents pose différents types de problématiques. Parmi celles-ci la représentation des ces documents ainsi que leurs exploitations notamment dans un contexte de recherche d’information. Le problème principal réside dans le fait qu’il n’existe pas un formalisme standardisé permettant de matérialiser de manière appropriée et pérenne un document possédant plusieurs structures. Les travaux de recherche que nous avons mené au cours de cette thèse nous ont conduit à définir un modèle spécifique pour la représentation de ce type de documents. Le modèle MSDM (Multi-Structured Document Model) que nous proposons se veut un modèle générique intégrant des caractéristiques spécifiques aux documents multi-structurés tout en étant facilement exploitable. Partant de ce modèle nous avons proposé un formalisme, basé sur XML, appelé MultiX permettant la sérialisation de ces documents. Nous avons étudié l’exploitation de ces documents dans le contexte de la recherche d’information. Pour interroger efficacement les documents multi-structurés au format MultiX, nous avons développé une extension du langage XQuery sous forme d’une bibliothèque de fonctions spécifiques. Ces fonctions permettent une exploitation plus efficace et plus facile des documents MultiX. Pour valider nos propositions nous avons implémenté un framework offrant des possibilités de création d’analyse et de manipulation de documents multi-structurés.