Thèse soutenue

Apprentissage et échantillonnage de paysages énergétiques complexes avec des machines de Boltzmann restreintes : de la théorie à la fitness de la protéine TEM-1

FR  |  
EN
Auteur / Autrice : Clément Roussel
Direction : Simona CoccoRémi Monasson
Type : Thèse de doctorat
Discipline(s) : Physique
Date : Soutenance le 02/12/2021
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Physique en Île-de-France (Paris ; 2014-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de physique de l'ENS (Paris ; 2019-....)
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : François Coste
Examinateurs / Examinatrices : Simona Cocco, Rémi Monasson, François Coste, Eugene I. Shakhnovich, Adriano Barra, Anne-Florence Bitbol, Aurélien Decelle
Rapporteurs / Rapporteuses : Eugene I. Shakhnovich, Adriano Barra

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Tout au long de cette thèse de doctorat, nous étudierons les propriétés d'échantillonnage des machines de Boltzmann restreintes (RBM), des réseaux de neurones à deux couches utilisés pour l'apprentissage non supervisé de distributions de modèles à partir de données. Dans le cas de l'algorithme d'échantillonnage canonique de ce réseau de neurones, l'échantillonnage alterné de Gibbs, nous montrerons qu'il est possible de trouver des trajectoires optimales entre des minima locaux du paysage énergétique, mais que ces trajectoires passent par de grandes barrières d'énergie libre. Le temps caractéristique pour passer d'un minimum à l'autre est exponentiel dans la taille du système. Par conséquent, cet algorithme est tout aussi inefficace qu'un échantillonnage naïf basé sur l'algorithme de Metropolis-Hastings. Nous allons montrer qu'il est possible d'utiliser les représentations apprises par les machines de Boltzmann restreintes pour accélérer l'échantillonnage. Lorsque les unités cachées codent des caractéristiques essentiellement indépendantes des données, ou sont corrélées par blocs de faible dimension, la mise à jour d'une, ou d'un petit nombre d'unités cachées avec l'algorithme de Metropolis-Hastings dans l'espace caché permet un changement macroscopique des unités visibles et offre un mélange rapide entre les minima. Dans le cas d'une représentation intriquée, l'utilisation d'une pile de RBM couplées via l'algorithme de Deep Tempering améliore l'échantillonnage. Nous nous intéresserons également à la protéine beta-lactamase TEM-1 et montrerons que la plupart des mutations présentent un schéma macroscopique d'épistasie qui peut être capturé par un modèle biophysique simple de stabilité des protéines, qui prédit l'émergence de l'épistasie sur la base des effets additifs de la mutation sur la stabilité globale de la protéine. Nous utiliserons de plus des modèles issus de la physique statistique, comme les RBM entrainées sur des alignements de séquences, pour étudier théoriquement les effets de ces mutations et identifier des groupes d'amino-acides encodant des fonctionnalités particulières de la classe A des beta-lactamase.