Thèse en cours

nouvelles perspectives en mécanique statistique et inférence à haute dimension

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 21/03/2023. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Francesco Camilli
Direction : Marc MézardPierluigi Contucci
Type : Projet de thèse
Discipline(s) : Physique
Date : Inscription en doctorat le
Soutenance le 21/03/2023
Etablissement(s) : Université Paris sciences et lettres en cotutelle avec Université de Bologne
Ecole(s) doctorale(s) : Physique en Ile de France
Partenaire(s) de recherche : Laboratoire : Laboratoire de physique de l'ENS (Paris ; 2019-....)
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Erwin Bolthausen
Examinateurs / Examinatrices : Marc Mezard, Pierluigi Contucci, Lenka Zdeborová, Daniele Tantari, Giulio Biroli
Rapporteurs / Rapporteuses : Federico Ricci-tersenghi, Nicolas Macris

Résumé

FR  |  
EN

L'objectif principal de cette thèse est d’affaiblir deux hypothèses qui accompagnent habituellement l'analyse théorique dans les verres de spin et l'inférence: l'hypothèse d’éléments de bruit i.i.d. (indépendamment et identiquement distribué) et le régime de rang fini. La première est apparue dès la naissance des verres de spin. La seconde concerne plutôt le point de vue de l'inférence. Les systèmes désordonnés et l'inférence bayésienne ont une relation bien établie, qui est mise en évidence par leur constante fertilisation croisée. La thèse fait appel à des techniques développées dans l'étude rigoureuse des verres de spin, comme l’interpolation, et de la physique statistique, comme la méthode des répliques. La thèse commence par une introduction aux modèles de Sherrington-Kirkpatrick et Wigner spiked. Le premier est un verre de spin à champ moyen avec des couplages i.i.d. gaussiennes. Le second revient plutôt à établir les limites statistiques dans la reconstruction d'une matrice de rang fini, le "spike", brouillée par un bruit gaussien additif. En supposant l'optimalité bayésienne, c'est-à-dire en sachant tout sur le processus de génération des données à disposition, on peut prouver que le modèle Wigner spiked est en fait un verre de spin dans une sous-région de son espace de phase appelée ligne de Nishimori. Dans un tel contexte, toute une série d'identités et d'inégalités de corrélation sont valables en raison de cette phase spéciale, et elles sont suffisantes pour forcer la symétrie de réplique qui conduit à des principes variationnels en dimension finie pour l'énergie libre. Les analyses précédentes reposent fortement sur la nature i.i.d. du bruit. Pour affaiblir cette hypothèse, on peut donner aux couplages un profil de variance inhomogène, brisant ainsi une symétrie de permutation globale entre les sites de particules et donnant lieu aux modèles multi-espèces. Nous étudions deux types différents de profils de variance: un couplage convexe et un couplage profond. Cette terminologie fait référence aux manières possibles de coupler différentes particules appartenant à des espèces différentes. Ensuite, nous étudions rigoureusement le modèle Wigner spiked hors du cadre d’optimalité bayésienne. Parmi les différentes façons de briser l'optimalité de Bayes, nous nous concentrons sur le cas de priors non concordants: le statisticien qui veut reconstruire le spike assume un mauvais prior sur les éléments de sa matrice. Nous montrons que le modèle peut être représenté dans un verre de spin hors de la ligne de Nishimori, et donc les identités de Nishimori et la symétrie de réplique se brisent. Pour aller plus loin, nous introduisons ensuite un spiked model dans lequel le bruit est extrait d'un ensemble de matrices aléatoire orthogonales, brisant ainsi l'hypothèse d'indépendance. En utilisant la méthode des répliques, nous obtenons ses limites théoriques d'information lorsque le bruit est extrait d'un ensemble avec un potentiel de matrice quartique. Nous montrons comment construire un algorithme approximé de passage de messages qui sature ces limites. Enfin, nous traitons le problème de la factorisation des matrices de rang élevé sous un nouvel angle. Nous abandonnons l'optimalité bayésienne en faveur d'une estimation sous-optimale pratique. Puisqu'une matrice symétrique de rang P peut être représentée comme une collection de P vecteurs, nous cherchons à les trouver itérativement. À chaque étape de cette procédure, appelée décimation, le modèle d'inférence résultant peut être mappé dans un verre de spin similaire au modèle de Hopfield, et en tant que tel, il hérite de la plupart de ses caractéristiques. En utilisant la méthode des répliques, nous calculons l'énergie libre associée à chaque étape de décimation et montrons numériquement qu'il s'agit d'une stratégie viable pour la factorisation matricielle dans certains intervalles des paramètres de contrôle. Cela montre surtout que la factorisation de matrices est possible.