Thèse soutenue

Modélisation à Base de Réseaux de Neurones des Performances des Plateformes Cloud

FR  |  
EN
Auteur / Autrice : Khaled Zaouk
Direction : Yanlei Diao
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/03/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....)
Jury : Président / Présidente : Florent Masseglia
Examinateurs / Examinatrices : Yanlei Diao, Paolo Papotti, Alexandre Gramfort, Marc Shapiro
Rapporteur / Rapporteuse : Paolo Papotti

Résumé

FR  |  
EN

L'analyse des données en utilisant des ressources cloud est désormais omniprésente dans l'activité des entreprises qui s'engagent dans une transformation digitale pour mieux comprendre les données volumineuses dont elles disposent. La modélisation des performances des plateformes cloud utilisées dans ce contexte est une nécessité pour pouvoir garantir une bonne performance des requettes réparties (appelées jobs) ainsi qu'une meilleure gestion des ressources cloud. Les techniques de modélisation traditionnelles ne s'adaptent ni à la diversité de ces jobs ni aux différents comportements des systèmes distribués. Dans cette thèse, nous proposons des techniques récentes de Deep Learning pour pouvoir automatiser cette tâche de modélisation avec un focus en particulier sur la plateforme Spark utilisée pour les calculs distribués. Au coeur de notre travaux de recherche, on présente la notion d'apprentissage d'embeddings, vecteurs capables de décrire de façon compacte les caractéristiques fondamentales des différents jobs. Nous montrerons dans cette thèse comment ces embeddings permettent une meilleure prédiction des performances des jobs sous différentes configurations du système de calculs répartis. Nous aborderons aussi une étude de différents choix de modélisation à base de réseaux de neurones répondant à nos besoins. Les résultats de nos expériences révèlent les forces et les limites des différents choix de modélisation. Nos expériences dévoilent aussi des performances supérieures d'une méthode qu'on propose par rapport à l'état de l'art dans la modélisation des systèmes de gestion de base de données.