Éléments de compréhension des réseaux de neurones pour l’apprentissage automatique par méthodes de champ moyen
Auteur / Autrice : | Marylou Gabrié |
Direction : | Florent Krzakala |
Type : | Thèse de doctorat |
Discipline(s) : | Physique théorique |
Date : | Soutenance le 20/09/2019 |
Etablissement(s) : | Paris Sciences et Lettres (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Physique en Île-de-France (Paris ; 2014-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de physique de l'ENS (Paris ; 2019-....) |
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Giulio Biroli |
Examinateurs / Examinatrices : Florent Krzakala, Giulio Biroli, Manfred Opper, Yue M. Lu, Matteo Marsili | |
Rapporteur / Rapporteuse : Manfred Opper, Yue M. Lu |
Mots clés
Mots clés contrôlés
Résumé
Les algorithmes d’apprentissage automatique utilisant des réseaux de neurones profonds ont récemment révolutionné l'intelligence artificielle. Malgré l'engouement suscité par leurs diverses applications, les excellentes performances de ces algorithmes demeurent largement inexpliquées sur le plan théorique. Ces problèmes d'apprentissage sont décrits mathématiquement par de très grands ensembles de variables en interaction, difficiles à manipuler aussi bien analytiquement que numériquement. Cette multitude est précisément le champ d'étude de la physique statistique qui s'attelle à comprendre, originellement dans les systèmes naturels, comment rendre compte des comportements macroscopiques à partir de cette complexité microscopique. Dans cette thèse nous nous proposons de mettre à profit les progrès récents des méthodes de champ moyen de la physique statistique des systèmes désordonnés pour dériver des approximations pertinentes dans ce contexte. Nous nous appuyons sur les équivalences et les complémentarités entre les algorithmes de passage de message, les développements haute température et la méthode des répliques. Cette stratégie nous mène d'une part à des contributions pratiques pour l'apprentissage non supervisé des machines de Boltzmann. Elle nous permet d'autre part de contribuer à des réflexions théoriques en considérant le paradigme du professeur-étudiant pour modéliser des situations d'apprentissage. Nous développons une méthode pour caractériser dans ces modèles l'évolution de l'information au cours de l’entraînement, et nous proposons une direction de recherche afin de généraliser l'étude de l'apprentissage bayésien des réseaux de neurones à une couche aux réseaux de neurones profonds.