Ordonnancement dans les systèmes de stockage distribués
Auteur / Autrice : | Anthony Dugois |
Direction : | Loris Marchal |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 28/09/2023 |
Etablissement(s) : | Lyon, École normale supérieure |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Optimisation des ressources : modèles, algorithmes et ordonnancement |
Jury : | Président / Présidente : Denis Trystram |
Examinateurs / Examinatrices : Loris Marchal, Denis Trystram, Oliver Sinnen, Safia Kedad Sidhoum, Emmanuel Jeannot, Sara Bouchenak, Louis-claude Canon | |
Rapporteur / Rapporteuse : Oliver Sinnen, Safia Kedad Sidhoum |
Mots clés
Résumé
Les bases de données distribuées de type clé-valeur, où chaque entrée est associée à une clé de partition unique, sont des composants centraux des architectures modernes, notamment grâce à leurs propriétés de passage à l’échelle et de tolérance aux pannes. Étant donnée leur versatilité, ces systèmes doivent disposer des performances suffisantes pour assurer le service d’énormes quantités de requêtes. En particulier, le débit et la latence dépendent d’une grande diversité de facteurs. Dans cette thèse, nous nous intéressons à l’ordonnancement des requêtes au sein du cluster, avec l’objectif d’obtenir des garanties théoriques sur les fonctions objectives propres à ces systèmes. Nous modélisons ce problème d’ordonnancement dans le premier travail en prenant en compte la réplication des données, qui implique une contrainte spatiale forte sur l’exécution des requêtes, et l’aspect temps réel, qui empêche la connaissance a priori de la charge de travail. À partir de ce cadre théorique, nous développons plusieurs résultats d’optimalité et d’approximation pour des variantes simplifiées, et nous bornons la latence maximale pondérée en nous basant sur un algorithme optimal de l’état de l’art. Le calcul de cette borne inférieure nous permet d’évaluer la qualité de plusieurs heuristiques à partir de simulations. Le second travail porte sur des résultats d’inapproximabilité, et nous montrons que ceux-ci dépendent de la stratégie de réplication des données utilisée au sein du système. Nous donnons en outre une méthode permettant de calculer le débit maximal théoriquement atteignable sous un régime fixé de fréquence d’accès aux données. Le troisième travail est dédié à l’optimisation de l’exécution des requêtes dites multi-get, qui permettent de lire plusieurs clés à la fois. Dans le dernier travail, nous proposons Hector, un framework basé sur le système Apache Cassandra permettant de faciliter l’implémentation et l’évaluation des algorithmes d’ordonnancement en pratique.