Thèse soutenue

Éléments de compréhension des réseaux de neurones pour l’apprentissage automatique par méthodes de champ moyen

FR  |  
EN
Auteur / Autrice : Marylou Gabrié
Direction : Florent Krzakala
Type : Thèse de doctorat
Discipline(s) : Physique théorique
Date : Soutenance le 20/09/2019
Etablissement(s) : Paris Sciences et Lettres (ComUE)
Ecole(s) doctorale(s) : École doctorale Physique en Île-de-France (Paris ; 2014-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de physique de l'ENS (Paris ; 2019-....)
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Giulio Biroli
Examinateurs / Examinatrices : Florent Krzakala, Giulio Biroli, Manfred Opper, Yue M. Lu, Matteo Marsili
Rapporteur / Rapporteuse : Manfred Opper, Yue M. Lu

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les algorithmes d’apprentissage automatique utilisant des réseaux de neurones profonds ont récemment révolutionné l'intelligence artificielle. Malgré l'engouement suscité par leurs diverses applications, les excellentes performances de ces algorithmes demeurent largement inexpliquées sur le plan théorique. Ces problèmes d'apprentissage sont décrits mathématiquement par de très grands ensembles de variables en interaction, difficiles à manipuler aussi bien analytiquement que numériquement. Cette multitude est précisément le champ d'étude de la physique statistique qui s'attelle à comprendre, originellement dans les systèmes naturels, comment rendre compte des comportements macroscopiques à partir de cette complexité microscopique. Dans cette thèse nous nous proposons de mettre à profit les progrès récents des méthodes de champ moyen de la physique statistique des systèmes désordonnés pour dériver des approximations pertinentes dans ce contexte. Nous nous appuyons sur les équivalences et les complémentarités entre les algorithmes de passage de message, les développements haute température et la méthode des répliques. Cette stratégie nous mène d'une part à des contributions pratiques pour l'apprentissage non supervisé des machines de Boltzmann. Elle nous permet d'autre part de contribuer à des réflexions théoriques en considérant le paradigme du professeur-étudiant pour modéliser des situations d'apprentissage. Nous développons une méthode pour caractériser dans ces modèles l'évolution de l'information au cours de l’entraînement, et nous proposons une direction de recherche afin de généraliser l'étude de l'apprentissage bayésien des réseaux de neurones à une couche aux réseaux de neurones profonds.