Thèse soutenue

Ordonnancement dans les systèmes de stockage distribués

FR  |  
EN
Auteur / Autrice : Anthony Dugois
Direction : Loris Marchal
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/09/2023
Etablissement(s) : Lyon, École normale supérieure
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Optimisation des ressources : modèles, algorithmes et ordonnancement
Jury : Président / Présidente : Denis Trystram
Examinateurs / Examinatrices : Loris Marchal, Denis Trystram, Oliver Sinnen, Safia Kedad Sidhoum, Emmanuel Jeannot, Sara Bouchenak, Louis-claude Canon
Rapporteur / Rapporteuse : Oliver Sinnen, Safia Kedad Sidhoum

Résumé

FR  |  
EN

Les bases de données distribuées de type clé-valeur, où chaque entrée est associée à une clé de partition unique, sont des composants centraux des architectures modernes, notamment grâce à leurs propriétés de passage à l’échelle et de tolérance aux pannes. Étant donnée leur versatilité, ces systèmes doivent disposer des performances suffisantes pour assurer le service d’énormes quantités de requêtes. En particulier, le débit et la latence dépendent d’une grande diversité de facteurs. Dans cette thèse, nous nous intéressons à l’ordonnancement des requêtes au sein du cluster, avec l’objectif d’obtenir des garanties théoriques sur les fonctions objectives propres à ces systèmes. Nous modélisons ce problème d’ordonnancement dans le premier travail en prenant en compte la réplication des données, qui implique une contrainte spatiale forte sur l’exécution des requêtes, et l’aspect temps réel, qui empêche la connaissance a priori de la charge de travail. À partir de ce cadre théorique, nous développons plusieurs résultats d’optimalité et d’approximation pour des variantes simplifiées, et nous bornons la latence maximale pondérée en nous basant sur un algorithme optimal de l’état de l’art. Le calcul de cette borne inférieure nous permet d’évaluer la qualité de plusieurs heuristiques à partir de simulations. Le second travail porte sur des résultats d’inapproximabilité, et nous montrons que ceux-ci dépendent de la stratégie de réplication des données utilisée au sein du système. Nous donnons en outre une méthode permettant de calculer le débit maximal théoriquement atteignable sous un régime fixé de fréquence d’accès aux données. Le troisième travail est dédié à l’optimisation de l’exécution des requêtes dites multi-get, qui permettent de lire plusieurs clés à la fois. Dans le dernier travail, nous proposons Hector, un framework basé sur le système Apache Cassandra permettant de faciliter l’implémentation et l’évaluation des algorithmes d’ordonnancement en pratique.