Faire progresser l'apprentissage profond bayésien : priors sensibles et inférence accélérée
Auteur / Autrice : | Ba-Hien Tran |
Direction : | Maurizio Filippone |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de l'ingénieur |
Date : | Soutenance le 13/10/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes ; 1992-....) |
Jury : | Président / Présidente : Pietro Michiardi |
Examinateurs / Examinatrices : Serena Villata, Marco Lorenzi | |
Rapporteurs / Rapporteuses : Chris Oates, Mark Van der Wilk |
Mots clés
Résumé
Au cours de la dernière décennie, l'apprentissage profond a connu un succès remarquable dans de nombreux domaines, révolutionnant divers domaines grâce à ses performances sans précédent. Cependant, une limitation fondamentale des modèles d'apprentissage profond réside dans leur incapacité à quantifier avec précision l'incertitude des prédictions, ce qui pose des défis pour les applications qui nécessitent une évaluation robuste des risques. Heureusement, l'apprentissage profond Bayésien offre une solution prometteuse en adoptant une formulation Bayésienne pour les réseaux neuronaux. Malgré des progrès significatifs ces dernières années, il reste plusieurs défis qui entravent l'adoption généralisée et l'applicabilité de l'apprentissage profond Bayésien. Dans cette thèse, nous abordons certains de ces défis en proposant des solutions pour choisir des priors pertinents et accélérer l'inférence des modèles d'apprentissage profond Bayésien. La première contribution de la thèse est une étude des pathologies associées à de mauvais choix de priors pour les réseaux neuronaux Bayésiens dans des tâches d'apprentissage supervisées, ainsi qu'une proposition pour résoudre ce problème de manière pratique et efficace. Plus précisément, notre approche consiste à raisonner en termes de priors fonctionnels, qui sont plus facilement obtenus, et à ajuster les priors des paramètres du réseau neuronal pour les aligner sur ces priors fonctionnels. La deuxième contribution est un nouveau cadre pour réaliser la sélection de modèle pour les autoencodeurs Bayésiens dans des tâches non supervisées, telles que l'apprentissage de représentation et la modélisation générative. À cette fin, nous raisonnons sur la vraisemblance marginale de ces modèles en termes de priors fonctionnels et proposons une approche entièrement basée sur les échantillons pour son optimisation. La troisième contribution est un nouveau modèle d'autoencodeur entièrement Bayésien qui traite à la fois les variables latentes locales et le décodeur global de manière Bayésienne. Nous proposons un schéma MCMC amorti efficace pour ce modèle et imposons des priors de processus Gaussiens clairsemés sur l'espace latent pour capturer les corrélations entre les encodages latents. La dernière contribution est une approche simple mais efficace pour améliorer les modèles génératifs basés sur la vraisemblance grâce à la mollification des données. Cela accélère l'inférence pour ces modèles en permettant une estimation précise de la densité dans les régions de faible densité tout en résolvant le problème du surajustement de la variété.