Thèse soutenue

Construction automatique d'un système de type expert pour l'interrogation de bases de données textuelles

FR  |  
EN
Auteur / Autrice : Marina Andreewsky
Direction : Joseph Mariani
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1989
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR

Notre thèse décrit la construction d’un système d’aide à l’interrogation de bases de données textuelles en naturel, le système FASE. Pour une base donnée, FASE génère automatiquement des suites de mots sémantiquement importants de son vocabulaire. Celles-ci sont organisées en arborescence: la racine correspond aux termes généraux de la base et les feuilles aux termes spécifiques d’un petit nombre de documents. Les arborescences sont créées à l'aide de deux modules : le premier, à caractère linguistique, attribue un fichier inverse des mots sémantiques à chaque base traitée. Il comprend une analyse morpho-syntaxique et le traitement de certaines formes de négation et de synonymie. Le second créé, à partir du fichier inverse, des chaînes de mots importants de la base qui recouvrent tous les documents concernés à une étape donnée. Cette procédure permet également d’effectuer une classification automatique de la base textuelle traitée. L'interrogation d'une base consiste en un parcours sélectif de l’arborescence, de la racine à une feuille, c'est-à-dire du niveau le plus général au niveau le plus spécifique. A chaque étape, le système présente à l'utilisateur une suite de mots caractéristiques d'un ensemble de plus en plus restreint de documents. Celui-ci sélectionne les mots les plus proches du sujet qui l'intéresse et le système calcule dynamiquement la nouvelle suite de mots à proposer. Aucune requête n'est à formuler: le système guide la recherche et permet de converger vers les documents correspondants aux validations successives.