Articuler les classifications sémantiques induites d'un domaine
Auteur / Autrice : | Helka Folch |
Direction : | Daniel Kayser |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2002 |
Etablissement(s) : | Paris 13 |
Mots clés
Mots clés contrôlés
Résumé
Nous montrons la nécessité d'une analyse sémantique endogène pour faciliter l'accès au volume croissant de documents disponibles suite au développement exponentiel d'Internet. Cet afflux de texte on line génère la constitution de corpus hétérogènes qui rendent complexe la conception de modèles d'accés sémantique aux documents. Dans de tels cas, la projection de structures sémantiques a priori n'est pas une démarche adaptée pour un accès efficace aux documents. De même la recherche plein texte par mots clés n'est pas appropriée lorsque ceux-ci sont polysémiques. Le sens des mots est souvent contextuel et leur ambigui͏̈té est plus problématique dans les corpus hétérogènes. Nous avons montré ensuite que cette approche requiert une modélisation particulière du corpus de documents permettant de classer les contextes en fonction de la répartition de leurs traits ou les traits en fonction des contextes partagés et qu'il est nécessaire d'apporter des raffinements à cette modélisation, notamment par le biais de modules d'inférence en amont. Comme exemple d'affinage de traits, nous avons montré que l'inférence de traits syntaxiques dans le cadre d'un langage de description logique (les quasi-arbres) permet de construire des classes basées sur des proximités de comportement fin entre les mots. Nous avons montré aussi que les contraintes imposées par cette approche induisent des besoins en terme d'architecture de corpus. L'architecture que nous avons bâtie permet : l'extraction, à partir des corpus hétérogènes, d'unités textuelles pertinentes, la représentation des corpus extraits permettant le retour au document d'origine et le suivi de leur historique de traitements et la projection sur la base de documents des classes sémantiques obtenues afin de permettre une navigation hypertextuelle dans la base. Nous avons montré les limites des langages hypertextuels comme dans HTML et la nécessité d'utiliser un langage (Topic Maps) qui permet d'associer une sémantique aux liens.