Intégration de données hétérogènes et distribuées sur le web et applications à la biologie
Auteur / Autrice : | François-Marie Colonna |
Direction : | Omar Boucelma |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2008 |
Etablissement(s) : | Aix-Marseille 3 |
Mots clés
Mots clés contrôlés
Résumé
Depuis une vingtaine d'années, la masse de données générée par la biologie a cru de façon exponentielle. L'accumulation de ces informations a conduit à une hétérogénéité syntaxique et sémantique importante entre les sources. Intégrer ces données est donc devenu un des champs principaux de recherche en bases de données, puisque l'écriture de requêtes complexes joue un rôle important, en médecine prédictive par exemple. Les travaux présentés dans cette thèse se sont orientés autour de deux axes. Le premier axe s'intéresse à la jointure de données de source en source, qui automatise les extractions manuelles habituellement destinées à recouper les données. Cette méthode est basée sur une description des capacités des sources en logique des attributs. Le deuxième axe vise à développer une architecture de médiation BGLAV basée sur le modèle semi-structure, afin d'intégrer les sources de façon simple et flexible, en associant au système le langage XQuery.