Thèse soutenue

Articuler les classifications sémantiques induites d'un domaine

FR  |  
EN
Auteur / Autrice : Helka Folch
Direction : Daniel Kayser
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2002
Etablissement(s) : Paris 13

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Nous montrons la nécessité d'une analyse sémantique endogène pour faciliter l'accès au volume croissant de documents disponibles suite au développement exponentiel d'Internet. Cet afflux de texte on line génère la constitution de corpus hétérogènes qui rendent complexe la conception de modèles d'accés sémantique aux documents. Dans de tels cas, la projection de structures sémantiques a priori n'est pas une démarche adaptée pour un accès efficace aux documents. De même la recherche plein texte par mots clés n'est pas appropriée lorsque ceux-ci sont polysémiques. Le sens des mots est souvent contextuel et leur ambigui͏̈té est plus problématique dans les corpus hétérogènes. Nous avons montré ensuite que cette approche requiert une modélisation particulière du corpus de documents permettant de classer les contextes en fonction de la répartition de leurs traits ou les traits en fonction des contextes partagés et qu'il est nécessaire d'apporter des raffinements à cette modélisation, notamment par le biais de modules d'inférence en amont. Comme exemple d'affinage de traits, nous avons montré que l'inférence de traits syntaxiques dans le cadre d'un langage de description logique (les quasi-arbres) permet de construire des classes basées sur des proximités de comportement fin entre les mots. Nous avons montré aussi que les contraintes imposées par cette approche induisent des besoins en terme d'architecture de corpus. L'architecture que nous avons bâtie permet : l'extraction, à partir des corpus hétérogènes, d'unités textuelles pertinentes, la représentation des corpus extraits permettant le retour au document d'origine et le suivi de leur historique de traitements et la projection sur la base de documents des classes sémantiques obtenues afin de permettre une navigation hypertextuelle dans la base. Nous avons montré les limites des langages hypertextuels comme dans HTML et la nécessité d'utiliser un langage (Topic Maps) qui permet d'associer une sémantique aux liens.