Thèse soutenue

Acquisition terminologique en corpus : aspects linguistiques et statistiques

FR  |  
EN
Auteur / Autrice : JEAN-DAVID STA
Direction : Christian Fluhr
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques communes
Date : Soutenance en 1997
Etablissement(s) : Paris 7

Résumé

FR

Dans un contexte de mondialisation de l'information et d'accroissement de l'information specialisee, les ressources terminologiques sont d'un interet crucial pour la recherche documentaire, notamment dans le processus de reformulation de requete. Le probleme etudie est celui de l'extraction des connaissances et plus particulierement de l'acquisition terminologique automatisee en corpus, visant a assister l'expert dans la construction ou l'enrichissement d'une terminologie ou d'un thesaurus. Il s'agit d'extraire des candidats terme ou des candidats relation qui les lient, de classer des termes dans des domaines ou de regrouper des termes, ceci a partir de corpus considere comme la source privilegiee et a l'aide de methodes linguistiques et statistiques. Plusieurs methodes sont proposees et experimentees sur des corpus volumineux. La phase d'extraction de candidats terme est d'abord linguistique par application de patrons categoriels filtrants. Puis elle est secondee par des statistiques sur ces candidats permettant de les ordonner. Un certain nombre de statistiques sont evaluees dont la densite locale, expression de l'homogeneite des documents contenant un candidat. Pour la phase d'extraction de candidats relation entre termes, une experience montre tout l'interet d'une methode fondee sur la ressemblance des contextes des termes en question. Enfin, le classement d'un terme dans un domaine est examine. La methode la plus efficace est fondee sur une representation d'un terme a l'aide des termes qui lui sont lies par l'information mutuelle, suivie d'une analyse discriminante lineaire.