Génération de configurations moléculaires avec des flux normalisants sans données
Auteur / Autrice : | Loris Felardos |
Direction : | Bruno Raffin, Jérôme Hénin |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 02/12/2022 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de Grenoble (2007-....) |
Jury : | Président / Présidente : Kim Thang Nguyen |
Examinateurs / Examinatrices : Andrew Ferguson, Jean-Philip Piquemal | |
Rapporteur / Rapporteuse : Eric Vanden-Eijnden, Tony Lelièvre |
Mots clés
Résumé
La génération d'une distribution de Boltzmann en grande dimension a été récemment réalisée avec des flots normalisants, qui permettent un calcul rapide et exact de la densité générée (et donc une estimation non biaisée de moyennes d'intérêt). Cependant, les implémentations actuelles reposent sur des données d'entraînement, qui proviennent généralement de simulations coûteuses en calcul. Il y a donc une motivation claire à entraîner des modèles sans données en ne s'appuyant que sur la densité cible, qui peut être obtenue à partir d'un modèle d'énergie physique (à un facteur constant près).Dans ce travail, nous commençons par analyser les propriétés de la seule fonction de coût sans données utilisée dans la littérature et exposons ses limites. Celle-ci est basée sur une divergence de Kullback-Leibler (KL) et montre une forte propension à l'effondrement des modes lors de l'optimisation sur des distributions de grande dimension. Nous proposons ensuite plusieurs lignes directrices pour atténuer le problème et démontrer l'impact disproportionné que les degrés de liberté plats dans la distribution cible peuvent avoir sur la qualité de la convergence. Une autre fonction de coût basée sur la KL, que nous rendons sans données, résout le problème d'effondrement mais reste fragile car elle repose sur des poids d'échantillonnage d'importance numériquement instables.Nous introduisons ensuite une nouvelle fonction de coût, bien justifiée par la théorie et avec de bonnes propriétés d'optimisation (y compris un faible coût de calcul et l'absence de poids d'échantillonnage importants). En utilisant comme référence la génération de configurations moléculaires en 3D, nous montrons sur plusieurs tâches que, pour la première fois, des modèles pré-entraînés imparfaits peuvent être optimisés plus longtemps (raffinés) en l'absence de données d'apprentissage. Ce travail est une étape fondamentale vers des entraînements complets qui pourraient être 100% sans données et nous discutons des conditions restantes pour y parvenir.