Thèse soutenue

Integration de sources de donnees heterogenes ou comment marier simplicite et efficacite

FR  |  
EN
Auteur / Autrice : JEROME SIMEON
Direction : Claude Delobel
Type : Thèse de doctorat
Discipline(s) : Sciences appliquées
Date : Soutenance en 1999
Etablissement(s) : Paris 11

Résumé

FR

Ce travail est consacre a la conception et a la realisation d'outils pour faciliter la reutilisation de sources de donnees heterogenes. Jusqu'a present, deux approches se sont opposees. Les systemes d'integration structures utilisent les technologies des bases de donnees. Ils fonctionnent sur de grandes quantites d'informations mais n'offrent pas la flexibilite necessaire a un contexte reellement heterogene. Les systemes semistructures utilisent des modeles de representation sans schema qui favorisent l'integration simple et rapide de sources quelconques. L'absence de schema est cependant un handicap important pour la bonne comprehension des donnees et pour l'evaluation efficace des requetes. Nous introduisons un systeme de types pour un modele semistructure et yatl, un langage declaratif pour la specification de programmes d'integration. Outre la resolution des conflits structurels entre les sources, yatl permet un traitement complet des collections et des references. Les informations de type servent a guider l'ecriture des programmes et a verifier leur conformite par rapport aux structures d'entree et de sortie. L'utilisation de la genericite dans les programmes permet de conserver une grande flexibilite. Le systeme yat implante l'ensemble de ces outils. Il a permis la realisation rapide de plusieurs applications, grace a une architecture concue pour reduire au maximum le travail d'integration. Afin de decrire l'evaluation de programmes yatl, nous definissons un modele operationnel et une algebre pour donnees semistructurees. Les equivalences verifiees par les operateurs de l'algebre permettent non seulement de retrouver les techniques d'optimisation classiques, mais egalement d'en concevoir de nouvelles, specifiques au contexte semistructure. Enfin, la description precise des capacites operationnelles des sources est utilisee pour repartir l'evaluation des requetes de facon optimale entre les sources et le systeme d'integration.