Sur les méthodes de gradient stochastique et le transport optimal entre espaces
Auteur / Autrice : | Othmane Sebbouh |
Direction : | Gabriel Peyré, Marco Cuturi |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques |
Date : | Inscription en doctorat le Soutenance le 20/03/2024 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département de mathématiques et applications (1998-....) |
établissement opérateur d'inscription : Ecole normale supérieure | |
Jury : | Président / Présidente : Julie Delon |
Examinateurs / Examinatrices : Gabriel Peyre, Tianbao Yang, Laetitia Chapel, Marco Cuturi, Sébastien Gadat, Antoine Godichon-baggioni | |
Rapporteurs / Rapporteuses : Tianbao Yang, Laetitia Chapel |
Mots clés
Résumé
Dans ce manuscrit, nous nous penchons sur la relation complexe entre les méthodes de Descente de Gradient Stochastique (SGD) et la théorie du Transport Optimal (TO) dans le domaine de l'apprentissage automatique. SGD, souvent qualifiée de pilier du Machine Learning (ML), est utilisé pour optimiser les paramètres de modèles de ML à grande échelle. Malgré son utilisation répandue et les nombreuses analyses dont cet algorithme fait l'objet, il demeure essentiel d'approfondir notre compréhension de ses propriétés. Nous examinons l'aspect moins étudié des taux de convergence presque sûre des méthodes de gradient stochastique. La théorie du Transport Optimal (TO), qui mesure la similarité entre les distributions de probabilité, a considérablement progressé dans le domaine du ML, notamment dans la modélisation générative, l'adaptation de domaine et l'apprentissage automatique robuste. Nous étudions d'abord les aspects d'optimisation du TO et proposons un algorithme de gradient stochastique à la fois théoriquement solide et pratiquement efficace pour résoudre des problèmes d'optimisation min-max qui se présentent fréquemment lors de l'application du TO aux problèmes de l'apprentissage automatique. Enfin, nous proposons et analysons de nouvelles méthodes pour appliquer le TO à des espaces hétérogènes. Nous démontrons comment ces méthodes peuvent tirer parti des a priori sur la structure des données (comme la parcimonie) et montrons en quoi elles facilitent la résolution de tâches en aval, telles que l'appariement de données de cellules uniques et la transcriptomique spatiale.