Thèse soutenue

Vers une représentation du contexte thématique en Recherche d'Information

FR  |  
EN
Auteur / Autrice : Romain Deveaud
Direction : Patrice BellotEric Sanjuan
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/11/2013
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Jury : Président / Présidente : Josiane Mothe
Examinateurs / Examinatrices : Benjamin Piwowarski, Jacques Savoy, Jaap Kamps
Rapporteur / Rapporteuse : Philippe Mulhem, Jian-Yun Nie

Résumé

FR  |  
EN

Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d’information(SRI) faisant office d’interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d’information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind’information est constituée d’un petit ensemble de mots-clés plus souvent connu sousla dénomination de « requête ». Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l’état cognitif complet d’un humain par rapportà son besoin d’information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n’étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd’une requête formulée par un utilisateur sans qu’aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l’utilisation et la combinaison de différentessources d’information générales représentant les grands types d’informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d’algorithmes de modélisation thématique probabiliste (tels que l’allocationde Dirichlet latente) dans le cadre d’un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d’estimer conjointement le nombre de conceptsimplicites d’une requête ainsi que l’ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d’information et de résumé automatique