Efficient placement design and storage cost saving for big data workflow in cloud datacenters

Sonia Ikken

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Conception d'algorithmes de placement efficaces et économie des coûts de stockage pour les workflows du big data dans les centres de calcul de type cloud

FR |

EN

Auteur / Autrice :	Sonia Ikken
Direction :	Éric Renault
Type :	Thèse de doctorat
Discipline(s) :	Informatique, télécommunications et électronique
Date :	Soutenance le 14/12/2017
Etablissement(s) :	Evry, Institut national des télécommunications
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Université : Université Pierre et Marie Curie (Paris ; 1971-2017)
	Laboratoire : Services répartis- Architectures- MOdélisation- Validation- Administration des Réseaux / SAMOVAR - Département Réseaux et Services Multimédia Mobiles / RS2M
Jury :	Président / Présidente : Véronique Vèque
	Examinateurs / Examinatrices : Hamamache Kheddouci, Nadia Lynda Mokdad, Pierre Sens, Tahar Kechadi
	Rapporteurs / Rapporteuses : Hamamache Kheddouci, Nadia Lynda Mokdad

Mots clés

FR |

EN

Mots clés contrôlés

Hadoop (plate-forme informatique)

Stockage en ligne (informatique)

Informatique dans les nuages

Banques de données

Réduction des coûts

Données massives

Systèmes d'information

Flux de travail

Mots clés libres

Workflow du big data

Accès et placement des données

Minimisation des coûts de stockage

Centres de données cloud

Hadoop MapReduce

Application dirigée par les données

Données de dépendances

Optimisation

Résumé

FR |

EN

Les workflows sont des systèmes typiques traitant le big data. Ces systèmes sont déployés sur des sites géo-distribués pour exploiter des infrastructures cloud existantes et réaliser des expériences à grande échelle. Les données générées par de telles expériences sont considérables et stockées à plusieurs endroits pour être réutilisées. En effet, les systèmes workflow sont composés de tâches collaboratives, présentant de nouveaux besoins en terme de dépendance et d'échange de données intermédiaires pour leur traitement. Cela entraîne de nouveaux problèmes lors de la sélection de données distribuées et de ressources de stockage, de sorte que l'exécution des tâches ou du job s'effectue à temps et que l'utilisation des ressources soit rentable. Par conséquent, cette thèse aborde le problème de gestion des données hébergées dans des centres de données cloud en considérant les exigences des systèmes workflow qui les génèrent. Pour ce faire, le premier problème abordé dans cette thèse traite le comportement d'accès aux données intermédiaires des tâches qui sont exécutées dans un cluster MapReduce-Hadoop. Cette approche développe et explore le modèle de Markov qui utilise la localisation spatiale des blocs et analyse la séquentialité des fichiers spill à travers un modèle de prédiction. Deuxièmement, cette thèse traite le problème de placement de données intermédiaire dans un stockage cloud fédéré en minimisant le coût de stockage. A travers les mécanismes de fédération, nous proposons un algorithme exacte ILP afin d’assister plusieurs centres de données cloud hébergeant les données de dépendances en considérant chaque paire de fichiers. Enfin, un problème plus générique est abordé impliquant deux variantes du problème de placement lié aux dépendances divisibles et entières. L'objectif principal est de minimiser le coût opérationnel en fonction des besoins de dépendances inter et intra-job

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Conception d'algorithmes de placement efficaces et économie des coûts de stockage pour les workflows du big data dans les centres de calcul de type cloud

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Conception d'algorithmes de placement efficaces et économie des coûts de stockage pour les workflows du big data dans les centres de calcul de type cloud

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses