Limites fondamentales de l'estimation en grande dimension : une approche à l'interface de la physique statistique, des probabilités, et de la théorie des matrices aléatoires
Auteur / Autrice : | Antoine Maillard |
Direction : | Florent Krzakala |
Type : | Thèse de doctorat |
Discipline(s) : | Physique théorique |
Date : | Soutenance le 30/08/2021 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | Physique en Ile de France |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de physique de l'ENS (Paris ; 2019-....) |
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Jean-Philippe Bouchaud |
Examinateurs / Examinatrices : Florent Krzakala, Jean-Philippe Bouchaud, Andrea Montanari, Alice Guionnet, Afonso Bandeira | |
Rapporteurs / Rapporteuses : Jean-Philippe Bouchaud, Andrea Montanari |
Mots clés
Résumé
Le déluge croissant de données qui a rythmé la dernière décennie a donné naissance à des techniques modernes dans le domaine de l’intelligence artificielle. Ces méthodes sont basées sur l’optimisation d’un très grand nombre de paramètres par l’exploitation d’une quantité gargantuesque de données, et ces algorithmes sont désormais l’état de l’art pour des tâches aussi diverses que la classification d’images, le traitement automatique des langues, ou la reconnaissance vocale, et leurs performances excèdent régulièrement les capacités humaines. En conséquence, de nombreuses recherches se sont concentrées sur la construction d’une théorie mathématique qui pourrait expliquer l’efficacité de ces algorithmes, créant un fort gain d’intérêt pour les statistiques en haute dimension, où la quantité de données et le nombre de paramètres sont tous deux très grands. Nous analysons ici quelques pièces de cet immense puzzle à travers le prisme de la physique statistique, en empruntant également aux probabilités et à la théorie des matrices aléatoires. Ces outils nous permettent de proposer trois approches au problème de l’apprentissage statistique en haute dimension. Dans la première, nous revisitons un classique de la physique statistique, les expansions de haute température. Nous expliquons comment cette méthode est liée à des algorithmes modernes, et nous l’utilisons pour proposer les prémices d’une théorie exacte de la factorisation de matrices à rang extensif. Pour cela nous exploitons la connexion forte qui relie la physique des systèmes désordonnés et les statistiques en grande dimension, un sujet de recherche qui suscite un intérêt croissant depuis les années 1990. Dans une seconde partie, nous poussons cette correspondance plus loin et utilisons des outils heuristiques de physique théorique, comme la méthode des répliques, associés à des outils probabilistes et des algorithmes de passage de message, pour décrire les limites fondamentales d’une grande catégorie de problèmes d’apprentissage. Nous appliquons cette analyse à des réseaux de neurones, à l’extraction de phase, ainsi que pour étudier l’influence de la structure des données sur les procédures d’inférence. Enfin nous proposons une direction alternative, une approche topologique au problème d’inférence en haute dimension : en utilisant des outils de géométrie différentielle stochastique et de matrices aléatoires, nous prouvons des formules exactes décrivant la structure des paysages d’énergie optimisés par les algorithmes d’apprentissage.