Vers une représentation du contexte thématique en Recherche d'Information

Romain Deveaud

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Romain Deveaud
Direction :	Patrice Bellot, Eric Sanjuan
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 29/11/2013
Etablissement(s) :	Avignon
Ecole(s) doctorale(s) :	École doctorale 536 « Sciences et agrosciences » (Avignon)
Jury :	Président / Présidente : Josiane Mothe
	Examinateurs / Examinatrices : Benjamin Piwowarski, Jacques Savoy, Jaap Kamps
	Rapporteurs / Rapporteuses : Philippe Mulhem, Jian-Yun Nie

Mots clés

FR |

EN

Mots clés contrôlés

Recherche sur Internet

Recherche de l'information

Mots clés libres

Recherche d’information

Contextualisation

Concepts implicites

Modélisation thématique probabiliste

Retour de pertinence simulé

Modèles de pertinence

TREC

Résumé

FR |

EN

Quand des humains cherchent des informations au sein de bases de connaissancesou de collections de documents, ils utilisent un système de recherche d’information(SRI) faisant office d’interface. Les utilisateurs doivent alors transmettre au SRI unereprésentation de leur besoin d’information afin que celui-ci puisse chercher des documentscontenant des informations pertinentes. De nos jours, la représentation du besoind’information est constituée d’un petit ensemble de mots-clés plus souvent connu sousla dénomination de « requête ». Or, quelques mots peuvent ne pas être suffisants pourreprésenter précisément et efficacement l’état cognitif complet d’un humain par rapportà son besoin d’information initial. Sans une certaine forme de contexte thématiquecomplémentaire, le SRI peut ne pas renvoyer certains documents pertinents exprimantdes concepts n’étant pas explicitement évoqués dans la requête.Dans cette thèse, nous explorons et proposons différentes méthodes statistiques, automatiqueset non supervisées pour la représentation du contexte thématique de larequête. Plus spécifiquement, nous cherchons à identifier les différents concepts implicitesd’une requête formulée par un utilisateur sans qu’aucune action de sa part nesoit nécessaire. Nous expérimentons pour cela l’utilisation et la combinaison de différentessources d’information générales représentant les grands types d’informationauxquels nous sommes confrontés quotidiennement sur internet. Nous tirons égalementparti d’algorithmes de modélisation thématique probabiliste (tels que l’allocationde Dirichlet latente) dans le cadre d’un retour de pertinence simulé. Nous proposonspar ailleurs une méthode permettant d’estimer conjointement le nombre de conceptsimplicites d’une requête ainsi que l’ensemble de documents pseudo-pertinent le plusapproprié afin de modéliser ces concepts. Nous évaluons nos approches en utilisantquatre collections de test TREC de grande taille. En annexes, nous proposons égalementune approche de contextualisation de messages courts exploitant des méthodesde recherche d’information et de résumé automatique

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Vers une représentation du contexte thématique en Recherche d'Information

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Vers une représentation du contexte thématique en Recherche d'Information

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses