Entraînement parallélisable en apprentissage profond par le biais d'approches locales et distribuées
Auteur / Autrice : | Louis Fournier |
Direction : | Edouard Oyallon |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 25/10/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : LIP6 (1997-....) |
Jury : | Président / Présidente : Nicolas Thome |
Examinateurs / Examinatrices : Eugene Belilovsky, Julia Gusak | |
Rapporteur / Rapporteuse : Olivier Beaumont, Karteek Alahari |
Mots clés
Résumé
Les récentes avancées dans le domaine de l'apprentissage profond ont été poussées par la croissance des réseaux de neurones profonds, améliorant leur capacité de mémorisation et de généralisation. Cependant, cette croissance s'étend aussi aux ressources computationnelles nécessaires à leur entraînement. Dans cette thèse, nous proposons d'améliorer l'algorithme d'apprentissage standard qui consiste en de la rétropropagation parallélisée. En s'en écartant, il est possible d'obtenir des approches plus parallélisables et rapides. Tout d'abord, nous étudions les capacités des approches d'apprentissage local, une alternative plus parallélisable à la méthode standard d'estimation du gradient par rétropropagation. Le modèle est divisé en stages séquentiels reliées uniquement par des connexions de type `feedforward'. Nous améliorons l'apprentissage local auto-supervisé en supprimant certains échantillons de données des calculs locaux, ce qui permet d'éviter un effondrement de l'information. Nous montrons également que la dérivation automatique en mode direct, qui calcule une dérivée directionnelle en `feedforward', est améliorée en utilisant les gradients locaux comme directions tangentes. Deuxièmement, nous étudions les approches distribuées pour l'apprentissage profond, en particulier en tenant compte de leurs coûts de communication. Nous modifions le parallélisme de données synchrone pour équilibrer l'utilisation de la mémoire globale et des communications, en passant les calculs de simultanés à séquentiels. Enfin, nous proposons une nouvelle approche d'apprentissage distribué nécessitant peu de communications permettant à un ensemble de réseaux d'être moyenné après entraînement, donnant un modèle très performant au niveau de l'ensemble.