Extraction de liens semantiques entre termes a partir de corpus de textes techniques

par Emmanuel Morin

Thèse de doctorat en Sciences et techniques. Informatique

Sous la direction de Christian Jacquemin.

Soutenue en 1999

à Nantes .

    mots clés mots clés


  • Résumé

    L'extraction d'information a partir de corpus connait un essor important en raison de la multiplication des outils d'analyse massive de donnees textuelles. La direction de recherche la plus communement rencontree dans ce domaine est la classification semantique reposant sur des regularites distributionnelles. Cet axe, qui a deja ete largement explore, souffre des defauts suivants: (1) les classes semantiques obtenues n'ont pas de signification a priori, (2) les classes regroupent des entites linguistiques heterogenes et (3) la similitude conceptuelle est un lien neutres ; or il est necessaire de mettre en evidence des liens types etiquetables. Les travaux realises dans le cadre de cette these proposent une alternative a l'analyse distributionnelle en s'appuyant sur l'exploitation de productions langagieres qui permettent une identification a forte valeur conceptuelle. Les productions langagieres que nous cherchons a identifier peuvent s'exprimer sous la forme de schemas lexico-syntaxiques simples mais tres diversifies. Pour identifier ces schemas, nous avons developpe le systeme promethee, qui a partir d'une analyse fine et precise de corpus, extrait des schemas lexico-syntaxiques caracteristiques d'une relation semantique. L'originalite de notre methode est de projeter en corpus des paires de termes deja en relation pour relever leurs differentes manifestations linguistiques. L'acquisition de schemas lexico-syntaxiques se fait incrementalement au travers d'un analyseur de surface et d'un classifieur ou les interventions humaines se limitent a une validation terminologique. Les relations que nous extrayons par cette technique ont une haute valeur conceptuelle et sont utiles en construction automatique de thesaurus ou de bases de connaissances expertes ou terminologiques.


  • Pas de résumé disponible.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 160 p.
  • Annexes : 125 ref.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 1999NANT2085
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.