Thèse soutenue

Reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés

FR  |  
EN
Auteur / Autrice : Lobna Hlaoua
Direction : Mohand Boughanem
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2007
Etablissement(s) : Toulouse 3

Résumé

FR  |  
EN

Les travaux de cette thèse s'intéressent à la reformulation de requêtes par réinjection de pertinence dans les documents semi-structurés de type XML, en utilisant différentes sources d'évidences (le contenu et la structure). Nous proposons de réinjecter les termes pertinents sélectionnés selon leur distribution dans les éléments pertinents et non pertinents ainsi que leur proximité vis-à-vis des termes de la requête initiale. Nous avons appliqué la réinjection de la pertinence négative en introduisant le facteur bruit pour la sélection des termes pertinents. Une autre source d'évidence que nous avons aussi utilisée est l'information structurelle. Nous traduisons ainsi la notion de structure pertinente, dont l'existence est prouvée grâce à une étude empirique. Nous proposons l'algorithme Smallest Common Ancestor (SCA) pour l'extraction des structures pertinentes dans des collections homogènes. Nous proposons aussi un processus permettant d'extraire des structures pertinentes dans le cas des collections hétérogènes. Nous proposons également de faire cohabiter les deux sources d'évidence (contenu et structure) dans une approche combinée. Nous proposons trois méthodes de combinaison : combinaison "naïve", combinaison avec dépendance contextuelle et combinaison flexible. Quelle que soit l'approche proposée, la réécriture de la requête est formalisée selon une grammaire. L'ensemble de ces méthodes a été appliqué pour les deux types de requêtes structurées et non structurées. Les résultats montrent l'intérêt des deux approches proposées (réinjection de contenu et réinjection de structures), la combinaison des deux sources d'évidence permet également d'améliorer les performances.