Invariances, parcimonie et quantification pour un apprentissage à grande échelle frugal et maîtrisé
| Auteur / Autrice : | Maël Chaumette |
| Direction : | Rémi Gribonval |
| Type : | Projet de thèse |
| Discipline(s) : | Informatique |
| Date : | Inscription en doctorat le 01/10/2024 |
| Etablissement(s) : | Lyon, École normale supérieure |
| Ecole(s) doctorale(s) : | InfoMaths - Informatique et Mathématiques de Lyon |
| Partenaire(s) de recherche : | Laboratoire : LIP - Laboratoire de l'informatique du parallélisme |
Mots clés
Résumé
L'augmentation rapide de la taille des modèles neuronaux modernes met en lumière des défis cruciaux liés à l'entraînement, au stockage et à l'exploitation des réseaux de neurones. Face à ces limitations, il est impératif de développer des techniques d'optimisation capables de réduire les coûts tout en maintenant une performance élevée. Ce projet de thèse se concentre sur la conception d'un cadre mathématique et algorithmique pour la quantification et l'optimisation de paramétrisations parcimonieuses et efficaces de réseaux neuronaux profonds, en s'appuyant sur l'expertise et les travaux récents de l'équipe de recherche. Le projet s'articule autour de trois axes principaux : Quantification exploitant les invariances de remise à l'échelle : Les réseaux neuronaux profonds, en particulier les architectures ReLU, présentent des invariances naturelles sous des transformations de remise à l'échelle. Cette propriété peut être exploitée pour développer des algorithmes de quantification plus efficaces. Nous viserons à concevoir une méthode optimale de quantification des neurones ReLU et à étendre ces résultats à des couches entières et à des réseaux complexes, notamment via l'analyse des produits de matrices creuses et des contractions tensorielles de faible rang. Optimisation prenant en compte les invariances structurelles : Les invariances dues aux équivalences par remise à l'échelle dans les réseaux neuronaux posent des défis pour les algorithmes d'optimisation traditionnels, tels que la descente de gradient. L'objectif est de développer des critères invariants fondés mathématiquement pour choisir de manière cohérente un représentant parmi les classes d'équivalence des paramètres. Nous proposerons également des algorithmes d'optimisation exploitant la structure spectrale (comme celle de la Hessienne ou des couches linéaires) pour accélérer la convergence. Paramétrisations parcimonieuses et de rang faible stables : Les approximations parcimonieuses et de rang faible sont essentielles pour compresser les réseaux neuronaux, mais peuvent induire des instabilités numériques. Ce projet vise à concevoir de nouvelles paramétrisations flexibles et stables, telles que les matrices papillon, adaptées aux réseaux neuronaux modernes. Nous chercherons à lever les difficultés actuelles liées à l'entraînement direct avec ces paramétrisations tout en garantissant une implémentation efficace sur GPU. Ce projet de thèse permettra de répondre aux besoins croissants en optimisation et compression des réseaux neuronaux à grande échelle, tout en contribuant à une meilleure compréhension des invariances et des structures intrinsèques des modèles appris. Les résultats attendus incluent le développement de nouvelles méthodes théoriquement justifiées, des gains significatifs en termes de stockage et de vitesse d'entraînement, et une avancée dans l'apprentissage frugal et maîtrisé.