Short text contextualization in information retrieval : application to tweet contextualization and automatic query expansion

Liana Ermakova

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Contextualisation de textes courts pour la recherche d'information : application à la contextualisation de tweets et à l'expansion automatique de requêtes.

FR |

EN

Auteur / Autrice :	Liana Ermakova
Direction :	Josiane Mothe, Irina Ovchinnikova
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 31/03/2016
Etablissement(s) :	Toulouse 2 en cotutelle avec Permskij gosudarstvennyj universitet (Russie)
Ecole(s) doctorale(s) :	École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche :	Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury :	Président / Présidente : Olivier Teste
	Examinateurs / Examinatrices : Josiane Mothe, Irina Ovchinnikova, Brigitte Grau, Jacques Savoy, Elena Nikitina, Eric Sanjuan
	Rapporteurs / Rapporteuses : Brigitte Grau, Jacques Savoy

Mots clés

FR |

EN

Mots clés contrôlés

Recherche de l'information

Mots clés libres

Recherche d'information

Résumé

FR |

EN

La communication efficace a tendance à suivre la loi du moindre effort. Selon ce principe, en utilisant une langue donnée les interlocuteurs ne veulent pas travailler plus que nécessaire pour être compris. Ce fait mène à la compression extrême de textes surtout dans la communication électronique, comme dans les microblogues, SMS, ou les requêtes dans les moteurs de recherche. Cependant souvent ces textes ne sont pas auto-suffisants car pour les comprendre, il est nécessaire d’avoir des connaissances sur la terminologie, les entités nommées ou les faits liés. Ainsi, la tâche principale de la recherche présentée dans ce mémoire de thèse de doctorat est de fournir le contexte d’un texte court à l’utilisateur ou au système comme à un moteur de recherche par exemple.Le premier objectif de notre travail est d'aider l’utilisateur à mieux comprendre un message court par l’extraction du contexte d’une source externe comme le Web ou la Wikipédia au moyen de résumés construits automatiquement. Pour cela nous proposons une approche pour le résumé automatique de documents multiples et nous l’appliquons à la contextualisation de messages, notamment à la contextualisation de tweets. La méthode que nous proposons est basée sur la reconnaissance des entités nommées, la pondération des parties du discours et la mesure de la qualité des phrases. Contrairement aux travaux précédents, nous introduisons un algorithme de lissage en fonction du contexte local. Notre approche s’appuie sur la structure thème-rhème des textes. De plus, nous avons développé un algorithme basé sur les graphes pour le ré-ordonnancement des phrases. La méthode a été évaluée à la tâche INEX/CLEF Tweet Contextualization sur une période de 4 ans. La méthode a été également adaptée pour la génération de snippets. Les résultats des évaluations attestent une bonne performance de notre approche.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Contextualisation de textes courts pour la recherche d'information : application à la contextualisation de tweets et à l'expansion automatique de requêtes.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Contextualisation de textes courts pour la recherche d'information : application à la contextualisation de tweets et à l'expansion automatique de requêtes.

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses