Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2005

Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle

Mathias Rossignol
  • Fonction : Auteur
  • PersonId : 880276

Résumé

Semantic lexicons are an essential resource to let many natural language processing applications (automatic summarization, information retrieval, automatic translation, etc.) penetrate the meaning of a text. The relevance of the information gathered by those lexicons raises a problematic question: the meaning of a word like soap, for example, varies considerably whether it is considered in a sanitary or televisual context. A linguistically motivated and cost-effective way of building semantic lexicons precisely adapted to a certain domain of expression consists in “learning” word meanings from their actual usage as observed in a representative collection of texts, or corpus. To answer this challenge, we propose in this document a three-stage methodology for the automatic acquisition of lexical semantic information from texts, based on the linguistic principles of F. Rastier's Interpretative semantics. Thanks to a statistical analysis of word uses, employing both classical and novel methods, we first manage to bring together words belonging to a same domain (for example data, transfer, network for IT), then to build classes of words having a similar meaning (data and information). We finally propose a first method to put to light fine-grained meaning distinctions between close words (data is more “concrete” than information), thus reaching a level of meaning refinement never before attained, to our knowledge, by automatic means.
Les lexiques sémantiques sont des ressources indispensables pour permettre à de nombreuses applications de traitement automatique des langues (résumé automatique, recherche d'information, traduction automatique, etc.) d'accéder au sens d'un texte. La question de la pertinence des informations présentes dans de tels lexiques est cruciale : le sens d'un mot comme navet, par exemple, varie considérablement selon que le texte étudié est consacré à la gastronomie ou à la cinématographie. Un moyen économique et linguistiquement motivé de disposer de descriptions de sens de mots réellement pertinentes est d'« apprendre » celles-ci à partir de l'utilisation effective des mots dans un corpus, collection de textes représentative d'un domaine d'expression. Nous proposons pour tenter de répondre à ce défi une méthodologie d'acquisition automatique sur corpus d'informations lexicales sémantiques en trois étapes, fondée sur les principes linguistiques de la Sémantique interprétative de F. Rastier. Par analyse statistique et comparaison des modes d'emploi des mots, en utilisant des méthodes classiques ou originales, nous parvenons tout d'abord à rapprocher des mots appartenant à un même domaine (par exemple donnée, transfert, réseau pour les NTIC), puis des mots de sens similaires (donnée et information). Enfin, nous proposons une première méthode permettant la mise au jour de nuances fines marquant des distinctions de sens entre mots proches (donnée est plus « concret » que information), ce qui constitue un résultat encore inédit en acquisition automatique d'informations lexicales sémantiques.
Fichier principal
Vignette du fichier
these_Mathias_Rossignol.pdf (757.47 Ko) Télécharger le fichier
Loading...

Dates et versions

tel-00524299 , version 1 (07-10-2010)

Identifiants

  • HAL Id : tel-00524299 , version 1

Citer

Mathias Rossignol. Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle. Interface homme-machine [cs.HC]. Université Rennes 1, 2005. Français. ⟨NNT : ⟩. ⟨tel-00524299⟩
385 Consultations
797 Téléchargements

Partager

Gmail Facebook X LinkedIn More