Thèse soutenue

Apprentissage de structure pour les réseaux de neurones

FR  |  
EN
Auteur / Autrice : Pierre Wolinski
Direction : Guillaume Charpiat
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/03/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France) - Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020)
référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
Jury : Président / Présidente : Florent Krzakala
Examinateurs / Examinatrices : Mathieu Salzmann, Stéphane Canu, Florence D'Alché-Buc, Yann Ollivier
Rapporteurs / Rapporteuses : Mathieu Salzmann, Stéphane Canu

Résumé

FR  |  
EN

La structure d'un réseau de neurones détermine dans une large mesure son coût d'entraînement et d'utilisation, ainsi que sa capacité à apprendre. Ces deux aspects sont habituellement en compétition : plus un réseau de neurones est grand, mieux il remplira la tâche qui lui a été assignée, mais plus son entraînement nécessitera des ressources en mémoire et en temps de calcul. L'automatisation de la recherche des structures de réseaux efficaces - de taille raisonnable, mais performantes dans l'accomplissement de la tâche - est donc une question très étudiée dans ce domaine. Dans ce contexte, des réseaux de neurones aux structures variées doivent être entraînés, ce qui nécessite un nouveau jeu d'hyperparamètres d'entraînement à chaque nouvelle structure testée. L'objectif de la thèse est de traiter différents aspects de ce problème. La première contribution est une méthode d'entraînement de réseau qui fonctionne dans un vaste périmètre de structures de réseaux et de tâches à accomplir, sans nécessité de régler le taux d'apprentissage. La deuxième contribution est une technique d'entraînement et d'élagage de réseau, conçue pour être insensible à la largeur initiale de celui-ci. La dernière contribution est principalement un théorème qui permet de traduire une pénalité d'entraînement empirique en a priori bayésien, théoriquement bien fondé. Ce travail résulte d'une recherche des propriétés que doivent théoriquement vérifier les algorithmes d'entraînement et d'élagage pour être valables sur un vaste ensemble de réseaux de neurones et d'objectifs.