Thèse soutenue

Une Méthode d'indexation sémantique adaptée aux corpus multilingues

FR  |  
EN
Auteur / Autrice : Catherine Roussey
Direction : Jean-Marie Pinon
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2001
Etablissement(s) : Lyon, INSA
Partenaire(s) de recherche : Laboratoire : LISI - Laboratoire d'Ingénierie des Systèmes d'Information (Lyon, INSA)

Mots clés

FR

Résumé

FR  |  
EN

Ces travaux de thèse s'inscrivent dans la problématique générale liée à l'indexation d'un corpus de texte pour la recherche d'information multilingue. Le but de l'indexation est d'identifier la connaissance contenue dans un texte et de la représenter par des mots clés appelés descripteurs. Or, la composante multilingue ajoute une complexité supplémentaire au processus d'indexation car une étape de traduction est obligatoire pour représenter document et requête par des descripteurs appartenant au même espace d'indexation. Pour traduire correctement un terme, il est préférable de reconnaître le concept dénoté par celui-ci. Actuellement, une recherche d'information pertinente représente le contenu des documents par des concepts et non plus par des termes. Cette thèse propose une méthode d'indexation sémantique pour les documents XML permettant de caractériser le contenu documentaire par des connaissances, non dépendante de la langue des documents. Ces connaissances sont déclinées en deux types : - Les connaissances du domaine sont utilisées pour représenter les documents et les requêtes dans le même espace de représentation non dépendant des langues. - Les connaissances terminologiques constituent plusieurs langages de présentation des connaissances du domaine. Nous avons défini notre propre modèle de représentation des connaissances intitulé les graphes sémantiques. Ce modèle est un enrichissement du modèle des graphes conceptuels de Sowa. Premièrement, notre modèle différencie les connaissances du domaine, des connaissances terminologiques. Deuxièmement, une fonction de comparaison de graphes adaptée aux besoins réels de la recherche d'information est proposée. Notre méthode d'indexation se veut générique car elle peut être utilisée aussi bien dans un système de recherche d'information multilingue que dans un hypertexte à base de connaissances. Pour valider notre proposition, un prototype, appelé SyDoM, a été implanté, répondant aux besoins d'une bibliothèque virtuelle.