Bornes de généralisation pour les réseaux de neurones
Auteur / Autrice : | Benjamin Dupuis |
Direction : | Umut Simsekli |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques |
Date : | Inscription en doctorat le 01/09/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : DIENS - Département d'informatique de l'École normale supérieure |
établissement opérateur d'inscription : Ecole normale supérieure |
Mots clés
Résumé
Comprendre les mécanismes de généralisation en apprentissage profond a été l'un des défis majeurs de la théorie de l'apprentissage statistiques au cours des dix années années écoulées. Bien que des travaux récents aient illustré que la base de données et l'algorithme d'entraînement doivent être pris en compte afin d'obtenir des bornes de généralisation pertinentes, la véritable nature des propriétés des données et de l'algorithme à prendre en compte pour évaluer la performance de généralisation est encore mal comprise. Dans cette thèse, nous approcherons ce problème du point de vue de la théorie des systèmes dynamiques. En particulier, nous exploiterons la structure fractale induite par l'algorithme d'optimisation stochastique sous-jacent [1]. Notre but est de prouver que l'erreur de généralisation des algorithmes modernes d'optimisation stochastique peut être comprise à l'aide d'outils provenant de la géométrie fractale et de la théorie des systèmes dynamiques. Les résultats des études théoriques seront évalués sur des architectures modernes de réseaux de neurones et de nouveaux algorithmes pourront être proposé à partir de la théorie développée. Références: [1] Camuto, Alexander, et al. ''Fractal structure and generalization properties of stochastic optimization algorithms.'' Advances in Neural Information Processing Systems 34 (2021): 18774-18788.