Thèse soutenue

Gestion du Big Data hautes performances dans les centres de données cloud

FR  |  
EN
Auteur / Autrice : Radu-Marius Tudoran
Direction : Luc BougéGabriel Antoniu
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/12/2014
Etablissement(s) : Rennes, École normale supérieure
Ecole(s) doctorale(s) : École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes)
Partenaire(s) de recherche : Laboratoire : Université européenne de Bretagne - European University of Brittany - École normale supérieure - Rennes - Institut de Recherche en Informatique et Systèmes Aléatoires - Scalable Storage for Clouds and Beyond
Jury : Examinateurs / Examinatrices : Pierre Sens, Olivier Nano, Patrick Valduriez
Rapporteurs / Rapporteuses : Frédéric Desprez, Michael Schöttner

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

La puissance de calcul facilement accessible offerte par les infrastructures clouds, couplés à la révolution du "Big Data", augmentent l'échelle et la vitesse auxquelles l'analyse des données est effectuée. Les ressources de cloud computing pour le calcul et le stockage sont répartis entre plusieurs centres de données de par le monde. Permettre des transferts de données rapides devient particulièrement important dans le cadre d'applications scientifiques pour lesquels déplacer le traitement proche de données est coûteux voire impossible. Les principaux objectifs de cette thèse consistent à analyser comment les clouds peuvent devenir "Big Data - friendly", et quelles sont les meilleures options pour fournir des services de gestion de données aptes à répondre aux besoins des applications. Dans cette thèse, nous présentons nos contributions pour améliorer la performance de la gestion de données pour les applications exécutées sur plusieurs centres de données géographiquement distribués. Nous commençons avec les aspects concernant l'échelle du traitement de données sur un site, et poursuivons avec le développements de solutions de type MapReduce permettant la distribution des calculs entre plusieurs centres. Ensuite, nous présentons une architecture de service de transfert qui permet d'optimiser le rapport coût-performance des transferts. Ce service est exploité dans le contexte de la diffusion de données en temps-réel entre des centres de données de clouds. Enfin, nous étudions la viabilité, pour une fournisseur de cloud, de la solution consistant à intégrer cette architecture comme un service basé sur un paradigme de tarification flexible, qualifiée de "Transfert-as-a-Service".