Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle

Mathias Rossignol

Thèse Année : 2005

Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle

(1)

Mathias Rossignol

Fonction : Auteur
PersonId : 880276

Multimedia content-based indexing

Résumé

Semantic lexicons are an essential resource to let many natural language processing applications (automatic summarization, information retrieval, automatic translation, etc.) penetrate the meaning of a text. The relevance of the information gathered by those lexicons raises a problematic question: the meaning of a word like soap, for example, varies considerably whether it is considered in a sanitary or televisual context. A linguistically motivated and cost-effective way of building semantic lexicons precisely adapted to a certain domain of expression consists in “learning” word meanings from their actual usage as observed in a representative collection of texts, or corpus. To answer this challenge, we propose in this document a three-stage methodology for the automatic acquisition of lexical semantic information from texts, based on the linguistic principles of F. Rastier's Interpretative semantics. Thanks to a statistical analysis of word uses, employing both classical and novel methods, we first manage to bring together words belonging to a same domain (for example data, transfer, network for IT), then to build classes of words having a similar meaning (data and information). We finally propose a first method to put to light fine-grained meaning distinctions between close words (data is more “concrete” than information), thus reaching a level of meaning refinement never before attained, to our knowledge, by automatic means.

Les lexiques sémantiques sont des ressources indispensables pour permettre à de nombreuses applications de traitement automatique des langues (résumé automatique, recherche d'information, traduction automatique, etc.) d'accéder au sens d'un texte. La question de la pertinence des informations présentes dans de tels lexiques est cruciale : le sens d'un mot comme navet, par exemple, varie considérablement selon que le texte étudié est consacré à la gastronomie ou à la cinématographie. Un moyen économique et linguistiquement motivé de disposer de descriptions de sens de mots réellement pertinentes est d'« apprendre » celles-ci à partir de l'utilisation effective des mots dans un corpus, collection de textes représentative d'un domaine d'expression. Nous proposons pour tenter de répondre à ce défi une méthodologie d'acquisition automatique sur corpus d'informations lexicales sémantiques en trois étapes, fondée sur les principes linguistiques de la Sémantique interprétative de F. Rastier. Par analyse statistique et comparaison des modes d'emploi des mots, en utilisant des méthodes classiques ou originales, nous parvenons tout d'abord à rapprocher des mots appartenant à un même domaine (par exemple donnée, transfert, réseau pour les NTIC), puis des mots de sens similaires (donnée et information). Enfin, nous proposons une première méthode permettant la mise au jour de nuances fines marquant des distinctions de sens entre mots proches (donnée est plus « concret » que information), ce qui constitue un résultat encore inédit en acquisition automatique d'informations lexicales sémantiques.

Mots clés

Natural language processing machine learning interpretative semantics keywords topics semantic classes semantic nuances specific semes

Traitement automatique des langues apprentissage automatique corpus sémantique interprétative mots-clés thèmes classes sémantiques taxèmes nuances sémantiques sèmes spécifiques

Domaines

Interface homme-machine [cs.HC]

Fichier principal

these_Mathias_Rossignol.pdf (757.47 Ko)

Patrick Gros : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00524299

Soumis le : jeudi 7 octobre 2010-14:33:02

Dernière modification le : vendredi 24 mars 2023-14:52:53

Archivage à long terme le : lundi 10 janvier 2011-11:28:45

Dates et versions

tel-00524299 , version 1 (07-10-2010)

Identifiants

HAL Id : tel-00524299 , version 1

Citer

Mathias Rossignol. Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle. Interface homme-machine [cs.HC]. Université Rennes 1, 2005. Français. ⟨NNT : ⟩. ⟨tel-00524299⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA IRISA-INSA-R IRISA-D6 INRIA2 UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

385 Consultations

797 Téléchargements

Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager