Thèse soutenue

Optimisation de Processus d'Apprentissage à Grande Échelle sur des Systèmes de Calcul Haute-Performance

FR  |  
EN
Auteur / Autrice : Romain Egele
Direction : Isabelle GuyonPrasanna Balaprakash
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 17/06/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Interdisciplinaire des Sciences du Numérique - Argonne national laboratory (Etats-Unis)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Sarah Cohen-Boulakia
Examinateurs / Examinatrices : Massih-Reza Amini, Gavin Cawley, Gideon Dror, Claire Monteleoni
Rapporteurs / Rapporteuses : Massih-Reza Amini, Gavin Cawley

Résumé

FR  |  
EN

Au cours de la dernière décennie, l'apprentissage automatique a connu une croissance exponentielle, portée par l'abondance de jeux de données, les avancées algorithmiques et l'augmentation de la puissance de calcul.Simultanément, le calcul haute performance (HPC) a évolué pour répondre à la demande croissante en calculs, offrant des ressources pour relever des défis scientifiques complexes. Cependant, les processus d'apprentissage machines sont souvent séquentiels, ce qui rend difficile leur mise à l'échelle sur les systèmes HPC qui sont eux parallèles par nature. Les processus d'apprentissage machines sont construits à partir de modules qui offrent de nombreux paramètres configurables, des politiques d'augmentation des données, aux procédures d'entraînement et aux architectures de modèles. Cette thèse se concentre sur l'optimisation des hyperparamètres des processus d'apprentissage sur des systèmes HPC, tels que Polaris à Argonne National Laboratory. Les principales contributions comprennent (1) l'optimisation Bayésienne parallèle décentralisée et asynchrone, (2) son extension à plusieurs objectifs, (3) l'intégration de méthodes de rejet précoce et (4) la quantification de l'incertitude des réseaux de neurones profonds. De plus, un logiciel en libre accès, DeepHyper, est fourni, encapsulant les algorithmes proposés pour faciliter la recherche et l'application. La thèse met en évidence l'importance des méthodes d'optimisation Bayésienne des hyperparamètres pour les processus d'apprentissage, cruciales pour exploiter efficacement les vastes ressources de calcul des systèmes HPC modernes.