Thèse soutenue

Entraînement parallélisable en apprentissage profond par le biais d'approches locales et distribuées

FR  |  
EN
Auteur / Autrice : Louis Fournier
Direction : Edouard Oyallon
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 25/10/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Président / Présidente : Nicolas Thome
Examinateurs / Examinatrices : Eugene Belilovsky, Julia Gusak
Rapporteur / Rapporteuse : Olivier Beaumont, Karteek Alahari

Résumé

FR  |  
EN

Les récentes avancées dans le domaine de l'apprentissage profond ont été poussées par la croissance des réseaux de neurones profonds, améliorant leur capacité de mémorisation et de généralisation. Cependant, cette croissance s'étend aussi aux ressources computationnelles nécessaires à leur entraînement. Dans cette thèse, nous proposons d'améliorer l'algorithme d'apprentissage standard qui consiste en de la rétropropagation parallélisée. En s'en écartant, il est possible d'obtenir des approches plus parallélisables et rapides. Tout d'abord, nous étudions les capacités des approches d'apprentissage local, une alternative plus parallélisable à la méthode standard d'estimation du gradient par rétropropagation. Le modèle est divisé en stages séquentiels reliées uniquement par des connexions de type `feedforward'. Nous améliorons l'apprentissage local auto-supervisé en supprimant certains échantillons de données des calculs locaux, ce qui permet d'éviter un effondrement de l'information. Nous montrons également que la dérivation automatique en mode direct, qui calcule une dérivée directionnelle en `feedforward', est améliorée en utilisant les gradients locaux comme directions tangentes. Deuxièmement, nous étudions les approches distribuées pour l'apprentissage profond, en particulier en tenant compte de leurs coûts de communication. Nous modifions le parallélisme de données synchrone pour équilibrer l'utilisation de la mémoire globale et des communications, en passant les calculs de simultanés à séquentiels. Enfin, nous proposons une nouvelle approche d'apprentissage distribué nécessitant peu de communications permettant à un ensemble de réseaux d'être moyenné après entraînement, donnant un modèle très performant au niveau de l'ensemble.