Thèse soutenue

Utilisation d'ontologies comme support à la recherche et à la navigation dans une collection de documents

FR  |  
EN
Auteur / Autrice : Mohameth François Sy
Direction : Michel CrampesSylvie RanwezVincent Ranwez
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/12/2012
Etablissement(s) : Montpellier 2
Ecole(s) doctorale(s) : Information, Structures, Systèmes (Montpellier ; École Doctorale ; 2009-2014)
Partenaire(s) de recherche : Laboratoire : LGI2P - Laboratoire de Génie Informatique et d'Ingénierie de Production - Ecole des Mines d'Alès
Jury : Examinateurs / Examinatrices : Michel Crampes, Sylvie Ranwez, Vincent Ranwez, Nathalie Aussenac-Gilles, Moussa Lô, Michel Beigbeder, Patrice Bellot, Jacky Montmain
Rapporteurs / Rapporteuses : Nathalie Aussenac-Gilles, Moussa Lô

Résumé

FR  |  
EN

Les ontologies offrent une modélisation des connaissances d'un domaine basée sur une hiérarchie des concepts clefs de ce domaine. Leur utilisation dans le cadre des Systèmes de Recherche d'Information (SRI), tant pour indexer les documents que pour exprimer une requête, permet notamment d'éviter les ambiguïtés du langage naturel qui pénalisent les SRI classiques. Les travaux de cette thèse portent essentiellement sur l'utilisation d'ontologies lors du processus d'appariement durant lequel les SRI ordonnent les documents d'une collection en fonction de leur pertinence par rapport à une requête utilisateur. Nous proposons de calculer cette pertinence à l'aide d'une stratégie d'agrégation de scores élémentaires entre chaque document et chaque concept de la requête. Cette agrégation, simple et intuitive, intègre un modèle de préférences dépendant de l'utilisateur et une mesure de similarité sémantique associée à l'ontologie. L'intérêt majeur de cette approche est qu'elle permet d'expliquer à l'utilisateur pourquoi notre SRI, OBIRS, estime que les documents qu'il a sélectionnés sont pertinents. Nous proposons de renforcer cette justification grâce à une visualisation originale où les résultats sont représentés par des pictogrammes, résumant leurs pertinences élémentaires, puis disposés sur une carte sémantique en fonction de leur pertinence globale. La Recherche d'Information étant un processus itératif, il est nécessaire de permettre à l'utilisateur d'interagir avec le SRI, de comprendre et d'évaluer les résultats et de le guider dans sa reformulation de requête. Nous proposons une stratégie de reformulation de requêtes conceptuelles basée sur la transposition d'une méthode éprouvée dans le cadre de SRI vectoriels. La reformulation devient alors un problème d'optimisation utilisant les retours faits par l'utilisateur sur les premiers résultats proposés comme base d'apprentissage. Nous avons développé une heuristique permettant de s'approcher d'une requête optimale en ne testant qu'un sous-espace des requêtes conceptuelles possibles. Nous montrons que l'identification efficace des concepts de ce sous-espace découle de deux propriétés qu'une grande partie des mesures de similarité sémantique vérifient, et qui suffisent à garantir la connexité du voisinage sémantique d'un concept.Les modèles que nous proposons sont validés tant sur la base de performances obtenues sur des jeux de tests standards, que sur la base de cas d'études impliquant des experts biologistes.