Le déploiement, une phase à part entière dans le cycle de vie des entrepôts de données : application aux plateformes parallèles

par Soumia Benkrid

Thèse de doctorat en Informatique et application

Sous la direction de Ladjel Bellatreche et de Khaled-Walid Hidouci.

Soutenue le 24-06-2014

à Chasseneuil-du-Poitou, Ecole nationale supérieure de mécanique et d'aérotechnique en cotutelle avec l'Ecole Nationale Supérieure d'Informatique (ESI) - Alger , dans le cadre de École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018) , en partenariat avec Laboratoire d'Informatique et d'Automatique pour les Systèmes / LIAS (laboratoire) .

Le président du jury était Djamel Eddine Zegour.

Le jury était composé de Yamine Aït-Ameur, Karima Benatcheba, Pascal Lienhardt.

Les rapporteurs étaient Arnaud Giacometti, Mahmoud Boufaida.


  • Résumé

    La conception d’un entrepôt de données parallèle consiste à choisir l’architecture matérielle,à fragmenter le schéma d’entrepôt de données, à allouer les fragments générés, à répliquer les fragments pour assurer une haute performance du système et à définir la stratégie de traitement et d’équilibrage de charges. L’inconvénient majeur de ce cycle de conception est son ignorance de l’interdépendance entre les sous-problèmes liés à la conception d’un EDP et l’utilisation des métriques hétérogènes pour atteindre le même objectif. Notre première proposition définie un modèle de coût analytique pour le traitement parallèle des requêtes OLAP dans un environnement cluster. Notre deuxième proposition prend en considération l’interdépendance existante entre la fragmentation et l’allocation. Dans ce contexte, nous avons proposé une nouvelle approche de conception d’un EDP sur un cluster de machine. Durant le processus de fragmentation, notre approche décide si le schéma de fragmentation généré est pertinent pour le processus d’allocation. Les résultats obtenus sont très encourageant et une validation est faite sur Teradata. Notre troisième proposition consiste à présenter une méthode de conception qui est une extension de notre travail. Dans cette phase, une méthode de réplication originale, basée sur la logique floue, est intégrée.

  • Titre traduit

    Deployment, full phase in the data warehouse life cycle : application to parallel platforms


  • Résumé

    Designing a parallel data warehouse consists of choosing the hardware architecture, fragmenting the data warehouse schema, allocating the generated fragments, replicating fragments to ensure high system performance and defining the treatment strategy and load balancing.The major drawback of this design cycle is its ignorance of the interdependence between subproblems related to the design of PDW and the use of heterogeneous metrics to achieve thesame goal. Our first proposal defines an analytical cost model for parallel processing of OLAP queries in a cluster environment. Our second takes into account the interdependence existing between fragmentation and allocation. In this context, we proposed a new approach to designa PDW on a cluster machine. During the fragmentation process, our approach determines whether the fragmentation pattern generated is relevant to the allocation process or not. The results are very encouraging and validation is done on Teradata. For our third proposition, we presented a design method which is an extension of our work. In this phase, an original method of replication, based on fuzzy logic is integrated.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Autre version

Cette thèse a donné lieu à une publication

Le déploiement, une phase à part entière dans le cycle de vie des entrepôts de données : application aux plateformes parallèles


Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole nationale supérieure de mécanique et d'aérotechnique. Centre de ressources documentaires.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.

Consulter en bibliothèque

Cette thèse a donné lieu à une publication

Informations

  • Sous le titre : Le déploiement, une phase à part entière dans le cycle de vie des entrepôts de données : application aux plateformes parallèles
  • Détails : 1 vol. (XXV-193 p.)
  • Notes : Thèse soutenue en co-tutelle.
  • Annexes : Bibliographie p. 183-192
La version de soutenance de cette thèse existe aussi sous forme papier.

Où se trouve cette thèse\u00a0?

Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.