Indexation de connaissances textuelles dans un système documentaire
| Auteur / Autrice : | Marie-Christine Van Goethem |
| Direction : | Philippe Trigano |
| Type : | Thèse de doctorat |
| Discipline(s) : | Contrôle des systèmes |
| Date : | Soutenance en 1997 |
| Etablissement(s) : | Compiègne |
| Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur (Compiègne) |
Résumé
A partir d'une problématique qui consistait à développer un système documentaire permettant d'interroger en langage naturel une base de textes, on a été amené à concevoir et à implanter un prototype de système documentaire. En accord avec nos hypothèses de travail, notre système ne nécessite pas de connaissance a priori dépendante d'un domaine. Nous avons tenté de montrer qu'il est possible, sans passer par une phase de modélisation des connaissances, d'extraire des textes un certain nombre d'informations utiles dans le cadre de la recherche d'information. Pour cela, nous avons privilégié les techniques d'indexation automatique. L'originalité de notre système réside dans la prise en compte simultanée de deux aspects du document : - La structure logique du document : ce prototype n'impose aucune contrainte particulière sur la structure du document, et permet de traiter tout ensemble de textes composés de manière hiérarchique, - Les relations extraites d'une analyse de cooccurrences des groupes nominaux du texte : un thésaurus est constitué automatiquement à partir des textes analysés. Notre système a été testé sur deux corpus de nature assez différente tant par leur contenu que par leur structure ; les premiers résultats semblent encourageants. La réalisation de ce système nous a permis d'entrevoir certains problèmes liés aux techniques de traitement automatique du langage naturel. Nous pensons que les techniques statistiques et linguistiques se combinent avantageusement dans le cadre d'un système documentaire. Cependant, alors qu'il existe de nombreux programmes statistiques d'étiquetage grammatical pour l'anglais, peu de travaux ont été menés dans ce sens pour le français. Le système développé dans cette thèse fournit une première version du thésaurus. Notre objectif final est qu'il puisse être considéré comme une véritable base de connaissance du domaine.