Modélisation à Base de Réseaux de Neurones des Performances des Plateformes Cloud
Auteur / Autrice : | Khaled Zaouk |
Direction : | Yanlei Diao |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 11/03/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....) |
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....) | |
Jury : | Président / Présidente : Florent Masseglia |
Examinateurs / Examinatrices : Yanlei Diao, Paolo Papotti, Alexandre Gramfort, Marc Shapiro | |
Rapporteur / Rapporteuse : Paolo Papotti |
Mots clés
Résumé
L'analyse des données en utilisant des ressources cloud est désormais omniprésente dans l'activité des entreprises qui s'engagent dans une transformation digitale pour mieux comprendre les données volumineuses dont elles disposent. La modélisation des performances des plateformes cloud utilisées dans ce contexte est une nécessité pour pouvoir garantir une bonne performance des requettes réparties (appelées jobs) ainsi qu'une meilleure gestion des ressources cloud. Les techniques de modélisation traditionnelles ne s'adaptent ni à la diversité de ces jobs ni aux différents comportements des systèmes distribués. Dans cette thèse, nous proposons des techniques récentes de Deep Learning pour pouvoir automatiser cette tâche de modélisation avec un focus en particulier sur la plateforme Spark utilisée pour les calculs distribués. Au coeur de notre travaux de recherche, on présente la notion d'apprentissage d'embeddings, vecteurs capables de décrire de façon compacte les caractéristiques fondamentales des différents jobs. Nous montrerons dans cette thèse comment ces embeddings permettent une meilleure prédiction des performances des jobs sous différentes configurations du système de calculs répartis. Nous aborderons aussi une étude de différents choix de modélisation à base de réseaux de neurones répondant à nos besoins. Les résultats de nos expériences révèlent les forces et les limites des différents choix de modélisation. Nos expériences dévoilent aussi des performances supérieures d'une méthode qu'on propose par rapport à l'état de l'art dans la modélisation des systèmes de gestion de base de données.