Extraction de liens semantiques entre termes a partir de corpus de textes techniques
Auteur / Autrice : | Emmanuel Morin |
Direction : | Christian Jacquemin |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et techniques. Informatique |
Date : | Soutenance en 1999 |
Etablissement(s) : | Nantes |
Résumé
L'extraction d'information a partir de corpus connait un essor important en raison de la multiplication des outils d'analyse massive de donnees textuelles. La direction de recherche la plus communement rencontree dans ce domaine est la classification semantique reposant sur des regularites distributionnelles. Cet axe, qui a deja ete largement explore, souffre des defauts suivants: (1) les classes semantiques obtenues n'ont pas de signification a priori, (2) les classes regroupent des entites linguistiques heterogenes et (3) la similitude conceptuelle est un lien neutres ; or il est necessaire de mettre en evidence des liens types etiquetables. Les travaux realises dans le cadre de cette these proposent une alternative a l'analyse distributionnelle en s'appuyant sur l'exploitation de productions langagieres qui permettent une identification a forte valeur conceptuelle. Les productions langagieres que nous cherchons a identifier peuvent s'exprimer sous la forme de schemas lexico-syntaxiques simples mais tres diversifies. Pour identifier ces schemas, nous avons developpe le systeme promethee, qui a partir d'une analyse fine et precise de corpus, extrait des schemas lexico-syntaxiques caracteristiques d'une relation semantique. L'originalite de notre methode est de projeter en corpus des paires de termes deja en relation pour relever leurs differentes manifestations linguistiques. L'acquisition de schemas lexico-syntaxiques se fait incrementalement au travers d'un analyseur de surface et d'un classifieur ou les interventions humaines se limitent a une validation terminologique. Les relations que nous extrayons par cette technique ont une haute valeur conceptuelle et sont utiles en construction automatique de thesaurus ou de bases de connaissances expertes ou terminologiques.