Gestion du Big Data hautes performances dans les centres de données cloud
Auteur / Autrice : | Radu-Marius Tudoran |
Direction : | Luc Bougé, Gabriel Antoniu |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 10/12/2014 |
Etablissement(s) : | Rennes, École normale supérieure |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes) |
Partenaire(s) de recherche : | Laboratoire : Université européenne de Bretagne - European University of Brittany - École normale supérieure - Rennes - Institut de Recherche en Informatique et Systèmes Aléatoires - Scalable Storage for Clouds and Beyond |
Jury : | Examinateurs / Examinatrices : Pierre Sens, Olivier Nano, Patrick Valduriez |
Rapporteurs / Rapporteuses : Frédéric Desprez, Michael Schöttner |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
La puissance de calcul facilement accessible offerte par les infrastructures clouds, couplés à la révolution du "Big Data", augmentent l'échelle et la vitesse auxquelles l'analyse des données est effectuée. Les ressources de cloud computing pour le calcul et le stockage sont répartis entre plusieurs centres de données de par le monde. Permettre des transferts de données rapides devient particulièrement important dans le cadre d'applications scientifiques pour lesquels déplacer le traitement proche de données est coûteux voire impossible. Les principaux objectifs de cette thèse consistent à analyser comment les clouds peuvent devenir "Big Data - friendly", et quelles sont les meilleures options pour fournir des services de gestion de données aptes à répondre aux besoins des applications. Dans cette thèse, nous présentons nos contributions pour améliorer la performance de la gestion de données pour les applications exécutées sur plusieurs centres de données géographiquement distribués. Nous commençons avec les aspects concernant l'échelle du traitement de données sur un site, et poursuivons avec le développements de solutions de type MapReduce permettant la distribution des calculs entre plusieurs centres. Ensuite, nous présentons une architecture de service de transfert qui permet d'optimiser le rapport coût-performance des transferts. Ce service est exploité dans le contexte de la diffusion de données en temps-réel entre des centres de données de clouds. Enfin, nous étudions la viabilité, pour une fournisseur de cloud, de la solution consistant à intégrer cette architecture comme un service basé sur un paradigme de tarification flexible, qualifiée de "Transfert-as-a-Service".