Thèse soutenue

Semantique, reference et acquisition automatique de connaissances a partir de textes

FR  |  
EN
Auteur / Autrice : Pierre Frath
Direction : François Rousselot
Type : Thèse de doctorat
Discipline(s) : Linguistique
Date : Soutenance en 1997
Etablissement(s) : Université Marc Bloch (Strasbourg) (1971-2008)

Résumé

FR  |  
EN

L'acquisition automatique de connaissances a partir de textes consiste, idealement, a generer une representation structuree d'un corpus fourni en entree a un systeme informatique. Cette representation doit pouvoir etre interrogee par un humain ou par une machine. La conception et la realisation d'un tel systeme soulevent des difficultes considerables, tant sur le plan theorique que technique. Ce travail a pour but d'examiner ces deux aspects du probleme. Une premiere partie est consacree a une analyse de l'etat de l'art. Elle consiste en une vue structuree des deux grandes familles d'approches du probleme de l'acquisition de connaissances : l'extraction automatique de terminologie, et l'acquisition de connaissances par projection de modeles conceptuels. Une seconde partie etudie les fondement souvent implicites du traitement automatique des langues, c'est-a-dire le positivisme logique et la semantique lexicale componentielle. En guise d'alternative a la componentialite, nous proposons une semantique du signe, de l'usage et de la reference inspiree de charles sanders peirce, de ludwig wittgenstein et de georges kleiber. Dans la troisieme partie, il est procede a l'analyse semantique referentielle d'un corpus de textes medicaux. Nous y definissons deux types de reference : la denomination et la denotation. La premiere consiste en une reference arbitraire, preconstruite, et opaque; la seconde, en une reference discursive, construite, et transparente. Dans la quatrieme partie, nous construisons manuellement une representation detaillee d'un fragment du corpus afin d'examiner la pertinence pratique de l'analyse theorique, et de fixer des objectifs precis au systeme. Enfin, la cinquieme partie est consacree a la construction aussi automatisee que possible d'une base de connaissances terminologiques capable de representer un corpus de textes techniques ou scientifiques, et qui soit suffisamment structuree pour permettre des usages applicatifs par exemple en terminologie ou en modelisation de domaines. En somme, ce travail examine le probleme de l'acquisition automatique de connaissances en liant intimement la theorie et la pratique, la finalite technologique donnant une ligne directrice aux discussions theoriques.