TempoWordNet : a Lexical Knowledge-base for Temporal Information Retrievale

par Mohammed Hasanuzzaman

Thèse de doctorat en Informatique et applications

Sous la direction de Stéphane Ferrari.

Le président du jury était Brigitte Grau.

Le jury était composé de Stéphane Ferrari, Brigitte Grau, Patrice Bellot, Adam Jatowt.

Les rapporteurs étaient Patrice Bellot, Adam Jatowt.


  • Résumé

    La capacité à capturer l’information temporelle dans le langage naturel, qu’elle soit exprimée de manière explicite, implicite, ou par connotation, est essentielle pour de nombreuses applications telles l’extraction d’information, les systèmes de question-réponse, le résumé automatique. Associer une orientation temporelle au sens des mots pour capter l’information temporelle en langue est une tâche relativement directe pour les humains utilisant leurs connaissances sur le monde. Une base de connaissances lexicales associant automatiquement cette orientation au sens des mots serait de fait cruciale pour les tâches automatiques visant à interpréter la temporalité dans les textes. Dans cette recherche, nous présentons une ontologie temporelle, TempoWordNet, où les synsets de WordNet sont enrichis avec une information sur leur temporalité intrinsèque : atemporel, passé, présent et futur. Nous étudions et expérimentons différentes stratégies de construction, lexico-sémantique, probabiliste et hybride. TempoWordNet est évalué de manière intrinsèque et extrinsèque, une ressource fiable devant à la fois contenir un étiquetage temporel de haute qualité et améliorer les performances de certaines tâches externes. Les deux types d’évaluations montrent la qualité et l’intérêt de la ressource. Pour compléter nos travaux, nous étudions aussi comment une application de recherche telle un moteur de recherche peut tirer parti de cette ressource. Le retour des utilisateurs de TempoWordNet a encouragé à améliorer encore la ressource. Nous terminons donc en proposant une nouvelle stratégie de construction permettant d’améliorer de manière conséquente TempoWordNet.

  • Titre traduit

    TempoWordNet : une base de données lexicales pour la recherche d’informations temporelles


  • Résumé

    The ability to capture the time information conveyed in natural language, where that information is expressed either explicitly, or implicitly, or connotative, is essential to many natural language processing applications such as information retrieval, question answering, automatic summarization, targeted marketing, loan repayment forecasting, and understanding economic patterns. Associating word senses with temporal orientation to grasp the temporal information in language is relatively straightforward task for humans by using world knowledge. With this in mind, a lexical temporal knowledge-base associating word senses automatically with their underlying temporal orientation would be crucial for the computational tasks aiming at interpretation of language of time in text. In this research, we introduce a temporal ontology namely TempoWordNet where all the synsets of WordNet are augmented with their intrinsic temporal dimensions: atemporal, past, present, and future. We study and experiment different strategies to build TempoWordNet namely lexico-semantic, probabilistic, and hybrid. The resource is evaluated both intrinsically and extrinsically, the underlying idea being that a reliable resource must evidence high quality time-tagging as well as improved performance for some external tasks. Both the evaluations results confirm the quality and usefulness of the resource. To complement our research we also experiment how a search application can benefit from this resource. Feedback from TempoWordNet users advocate for more reliable resource. At the end, we propose a strategy that shows steady improvements over the previous versions of TempoWordNet.

Autre version

Cette thèse a donné lieu à une publication en 2017 par [CCSD] [diffusion/distribution] à Villeurbanne

TempoWordNet : a Lexical Knowledge-base for Temporal Information Retrievale

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (XVIII-135 f.)
  • Annexes : Bibliogr. 143 ref. Index

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Non disponible pour le PEB
  • Cote : TCAS-2016-1
  • Bibliothèque : Université de Caen Normandie. Bibliothèque Rosalind Franklin (Sciences-STAPS).
  • Disponible pour le PEB
  • Cote : TCAS-2016-1bis
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.