Thèse soutenue

Modèles à Variables Latentes Profonds : des propriétés aux structures

FR  |  
EN
Auteur / Autrice : Victor Berger
Direction : Michèle Sebag
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/10/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Anne Vilnat
Examinateurs / Examinatrices : Danilo Jimenez Rezende, Yann Chevaleyre, Stéphane Canu
Rapporteurs / Rapporteuses : Danilo Jimenez Rezende, Yann Chevaleyre, Stéphane Canu

Résumé

FR  |  
EN

Les Modèles à Variables Latentes Profonds sont des modèles génératifs combinant les Réseaux Bayésiens avec l'apprentissage profond, illustrés par le célèbre Auto-encodeur Variationnel. Cette thèse se focalise sur leur structure, entendue comme la combinaison de 3 aspects : le graphe du Réseau Bayésien, le choix des familles probabilistes des variables, et l'architecture des réseaux de neurones. Nous démontrons que de nombreux aspects et propriétés de ces modèles peuvent être compris et contrôlés par cette structure, sans altérer l'objectif d'entraînement construit sur l'Evidence Lower Bound.La première contribution concerne l'impact du modèle d'observation -- la modélisation probabiliste des variables observées -- sur le processus d'entraînement : comment il détermine la séparation entre signal et bruit, ainsi que son impact sur la dynamique de l'entraînement lorsque son paramètre d'échelle est appris plustôt que fixé, où il agit alors comme un processus de recuit simulé.La seconde contribution, CompVAE, est centrée sur la structure hiérarchique des variables latentes : un modèle génératif conditionné par un multi-ensemble d'élements à combiner dans la génération finale. CompVAE démontre comment des propriétés globales -- des manipulations ensemblistes dans ce cas -- peuvent être atteintes par la seule conception structurale. Ce modèle est de plus validé empiriquement sur des données réelles, pour la génération de courbes de consommation électrique.La troisième contribution, Boltzmann Tuning of Generative Models (BTGM), est un cadre permettant d'ajuster un modèle génératif pré-entraîné selon un critère extérieur, en trouvant les ajustements minimaux nécessaire. Ceci est fait tout en contrôlant finement quelles variables latentes sont ajustées, et comment elles le sont. Nous démontrons empiriquement comment BTGM peut être utilisé pour spécialiser un modèle déjà entraîné, ou pour explorer les parties extrêmes d'une distribution générée.