Thèse soutenue

Conception d'algorithmes de placement efficaces et économie des coûts de stockage pour les workflows du big data dans les centres de calcul de type cloud

FR  |  
EN
Auteur / Autrice : Sonia Ikken
Direction : Éric Renault
Type : Thèse de doctorat
Discipline(s) : Informatique, télécommunications et électronique
Date : Soutenance le 14/12/2017
Etablissement(s) : Evry, Institut national des télécommunications
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Université : Université Pierre et Marie Curie (Paris ; 1971-2017)
Laboratoire : Services répartis- Architectures- MOdélisation- Validation- Administration des Réseaux / SAMOVAR - Département Réseaux et Services Multimédia Mobiles / RS2M
Jury : Président / Présidente : Véronique Vèque
Examinateurs / Examinatrices : Hamamache Kheddouci, Nadia Lynda Mokdad, Pierre Sens, Tahar Kechadi
Rapporteurs / Rapporteuses : Hamamache Kheddouci, Nadia Lynda Mokdad

Résumé

FR  |  
EN

Les workflows sont des systèmes typiques traitant le big data. Ces systèmes sont déployés sur des sites géo-distribués pour exploiter des infrastructures cloud existantes et réaliser des expériences à grande échelle. Les données générées par de telles expériences sont considérables et stockées à plusieurs endroits pour être réutilisées. En effet, les systèmes workflow sont composés de tâches collaboratives, présentant de nouveaux besoins en terme de dépendance et d'échange de données intermédiaires pour leur traitement. Cela entraîne de nouveaux problèmes lors de la sélection de données distribuées et de ressources de stockage, de sorte que l'exécution des tâches ou du job s'effectue à temps et que l'utilisation des ressources soit rentable. Par conséquent, cette thèse aborde le problème de gestion des données hébergées dans des centres de données cloud en considérant les exigences des systèmes workflow qui les génèrent. Pour ce faire, le premier problème abordé dans cette thèse traite le comportement d'accès aux données intermédiaires des tâches qui sont exécutées dans un cluster MapReduce-Hadoop. Cette approche développe et explore le modèle de Markov qui utilise la localisation spatiale des blocs et analyse la séquentialité des fichiers spill à travers un modèle de prédiction. Deuxièmement, cette thèse traite le problème de placement de données intermédiaire dans un stockage cloud fédéré en minimisant le coût de stockage. A travers les mécanismes de fédération, nous proposons un algorithme exacte ILP afin d’assister plusieurs centres de données cloud hébergeant les données de dépendances en considérant chaque paire de fichiers. Enfin, un problème plus générique est abordé impliquant deux variantes du problème de placement lié aux dépendances divisibles et entières. L'objectif principal est de minimiser le coût opérationnel en fonction des besoins de dépendances inter et intra-job