Thèse soutenue

Utilisation des vues materialisees, des index et de la fragmentation dans la conception logique et physique d'un entrepot de donnees

FR
Auteur / Autrice : Ladjel Bellatreche
Direction : Michel Schneider
Type : Thèse de doctorat
Discipline(s) : Sciences et techniques
Date : Soutenance en 2000
Etablissement(s) : Clermont-Ferrand 2

Résumé

FR

Un entrepot de donnees est une collection de donnees orientees sujet, integrees, non volatiles et historisees, organisees pour supporter un processus d'aide a la decision. Typiquement ce processus est mene par l'intermediaire de requetes de type olap (on-line analytical processing). Ces requetes sont generalement complexes car elles contiennent de nombreuses operations de jointure et de regroupement et induisent des temps de reponse tres eleves. Dans ce contexte, nos travaux s'interessent a diverses techniques d'amelioration des performances des entrepots de donnees pour favoriser au mieux les requetes. Ils interpellent deux niveaux de la conception des entrepots : le niveau logique et le niveau physique. Au niveau logique, nous suggerons une methodologie de fragmentation des structures de donnees de l'entrepot. Au niveau physique, nous nous interessons (1) a la definition et a la selection d'index de jointure en presence des vues materialisees et (2) a la distribution de l'espace disque entre les vues materialisees et les index. En ce qui concerne l'indexation, nous proposons une nouvelle technique d'indexation de jointure appelee index de graphe de jointure. Ce type d'index est specifique aux entrepots de type rolap (relational olap). Ils peuvent etre utilises sur les vues, les tables de dimensions et la table des faits. Ils permettent de reduire considerablement le cout d'execution des requetes. Une strategie d'execution des requetes en presence des index de graphe de jointure est decrite, et un modele de cout evaluant le cout d'execution d'un ensemble de requetes est developpe. Nous formulons ensuite le probleme de selection d'index de jointure en presence d'une contrainte d'espace disque et nous proposons trois algorithmes de resolution optimaux ou quasi-optimaux (un algorithme exhaustif et deux algorithmes gloutons). Le probleme de la distribution de l'espace disque entre les vues materialisees et les index a ete pose assez recemment et peu de travaux l'ont interpelle. Dans ce memoire, nous formulons ce probleme dans le cas statique (ou tous les parametres de l'entrepot sont connus a priori) et dans le cas dynamique (certains des parametres de l'entrepot doivent etre reevalues apres les operations de mises a jour) et nous proposons un algorithme approche de resolution base sur l'interaction entre deux agents, l'un operant pour le compte des vues et l'autre pour le compte des index. L'interet de la fragmentation est bien connu dans les bases de donnees relationnelles. Pour les entrepots, nous justifions que la fragmentation horizontale apparait plus specialement appropriee et nous proposons une methodologie de fragmentation horizontale pour decomposer un schema d'entrepot en etoile. Nous montrons ensuite que les algorithmes de fragmentation bases uniquement sur les frequences d'acces des requetes ne sont pas les plus interessants. Nous suggerons deux nouveaux types d'algorithmes. Le premier type est dirige par les affinites entre predicats et le deuxieme est dirige par un modele de cout. Pour cette derniere categorie nous comparons un algorithme exhaustif recensant tous les schemas de fragmentation et un algorithme approximatif.