Short text contextualization in information retrieval : application to tweet contextualization and automatic query expansion

Liana Ermakova

Thèse Année : 2016

Short text contextualization in information retrieval : application to tweet contextualization and automatic query expansion

Contextualisation de textes courts pour la recherche d'information : application à la contextualisation de tweets et à l'expansion automatique de requêtes.

(1)

Liana Ermakova

Fonction : Auteur
PersonId : 19494
IdHAL : liana-ermakova
ORCID : 0000-0002-7598-7474
IdRef : 224767305

Systèmes d’Informations Généralisées

Résumé

The efficient communication tends to follow the principle of the least effort. According to this principle, using a given language interlocutors do not want to work any harder than necessary to reach understanding. This fact leads to the extreme compression of texts especially in electronic communication, e.g. microblogs, SMS, search queries. However, sometimes these texts are not self-contained and need to be explained since understanding them requires knowledge of terminology, named entities or related facts. The main goal of this research is to provide a context to a user or a system from a textual resource.The first aim of this work is to help a user to better understand a short message by extracting a context from an external source like a text collection, the Web or the Wikipedia by means of text summarization. To this end we developed an approach for automatic multi-document summarization and we applied it to short message contextualization, in particular to tweet contextualization. The proposed method is based on named entity recognition, part-of-speech weighting and sentence quality measuring. In contrast to previous research, we introduced an algorithm for smoothing from the local context. Our approach exploits topic-comment structure of a text. Moreover, we developed a graph-based algorithm for sentence reordering. The method has been evaluated at INEX/CLEF tweet contextualization track. We provide the evaluation results over the 4 years of the track. The method was also adapted to snippet retrieval. The evaluation results indicate good performance of the approach.

La communication efficace a tendance à suivre la loi du moindre effort. Selon ce principe, en utilisant une langue donnée les interlocuteurs ne veulent pas travailler plus que nécessaire pour être compris. Ce fait mène à la compression extrême de textes surtout dans la communication électronique, comme dans les microblogues, SMS, ou les requêtes dans les moteurs de recherche. Cependant souvent ces textes ne sont pas auto-suffisants car pour les comprendre, il est nécessaire d’avoir des connaissances sur la terminologie, les entités nommées ou les faits liés. Ainsi, la tâche principale de la recherche présentée dans ce mémoire de thèse de doctorat est de fournir le contexte d’un texte court à l’utilisateur ou au système comme à un moteur de recherche par exemple.Le premier objectif de notre travail est d'aider l’utilisateur à mieux comprendre un message court par l’extraction du contexte d’une source externe comme le Web ou la Wikipédia au moyen de résumés construits automatiquement. Pour cela nous proposons une approche pour le résumé automatique de documents multiples et nous l’appliquons à la contextualisation de messages, notamment à la contextualisation de tweets. La méthode que nous proposons est basée sur la reconnaissance des entités nommées, la pondération des parties du discours et la mesure de la qualité des phrases. Contrairement aux travaux précédents, nous introduisons un algorithme de lissage en fonction du contexte local. Notre approche s’appuie sur la structure thème-rhème des textes. De plus, nous avons développé un algorithme basé sur les graphes pour le ré-ordonnancement des phrases. La méthode a été évaluée à la tâche INEX/CLEF Tweet Contextualization sur une période de 4 ans. La méthode a été également adaptée pour la génération de snippets. Les résultats des évaluations attestent une bonne performance de notre approche.

Mots clés

Information retrieval Contextualization Query expansion Automatic summarization Topic-comment

Recherche d'information Contextualisation Expansion de requête Résumé automatique Thème-rhème

Domaines

Recherche d'information [cs.IR]

Fichier principal

Ermakova_Liana.pdf (1.81 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-01729649

Soumis le : lundi 12 mars 2018-16:55:07

Dernière modification le : jeudi 28 mars 2024-03:10:08

Archivage à long terme le : mercredi 13 juin 2018-14:36:24

Dates et versions

tel-01729649 , version 1 (12-03-2018)

Identifiants

HAL Id : tel-01729649 , version 1

Citer

Liana Ermakova. Short text contextualization in information retrieval : application to tweet contextualization and automatic query expansion. Information Retrieval [cs.IR]. Université Toulouse le Mirail - Toulouse II; Permskij gosudarstvennyj universitet (Russie), 2016. English. ⟨NNT : 2016TOU20023⟩. ⟨tel-01729649⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-TLSE2 CNRS STAR UT1-CAPITOLE IRIT IRIT-SIG IRIT-GD TOULOUSE-INP UNIV-UT3 UT3-TOULOUSEINP

330 Consultations

253 Téléchargements

Short text contextualization in information retrieval : application to tweet contextualization and automatic query expansion

Contextualisation de textes courts pour la recherche d'information : application à la contextualisation de tweets et à l'expansion automatique de requêtes.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager