Acquisition sur corpus d'informations lexicales fondées sur la sémantique différentielle
Auteur / Autrice : | mathias rossignol |
Direction : | Pascale Sébillot |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2005 |
Etablissement(s) : | Rennes 1 |
Mots clés
Résumé
Certaines applications de TAL requièrent des informations sémantiques spécifiques à un domaine ou à une tâche donnée. Nous présentons en réponse à ce besoin une méthodologie d'acquisition automatique sur corpus d'informations lexicales sémantiques en trois étapes, fondée sur la Sémantique interprétative de F. Rastier. Dans un premier temps, nous parvenons à caractériser et détecter de manière totalement automatique les thèmes abordés dans un corpus, ce qui permet un découpage du vocabulaire en domaines. Les mots de ces domaines sont ensuite classés selon la ressemblance de leurs contextes d'emploi afin de constituer des taxèmes, classes sémantiques de mots de sens très proches. Enfin, nous mettons au jour au sein de ces taxèmes des sèmes spécifiques, différences de sens fines entre mots. Nous combinons au cours de ce travail étude linguistique et mise au point de méthodes statistiques originales afin d'atteindre un degré de définition du sens encore inédit en acquisition automatique.