Frugalité en données et efficacité computationnelle dans l'apprentissage profond
Auteur / Autrice : | Léon Zheng |
Direction : | Rémi Gribonval, Patrick Pérez |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 29/05/2024 |
Etablissement(s) : | Lyon, École normale supérieure |
Ecole(s) doctorale(s) : | École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de l'informatique du parallélisme (Lyon ; 1988-....) - Optimisation, Connaissances pHysiques, Algorithmes et Modèles - Valeo ai |
Jury : | Président / Présidente : Julien Mairal |
Examinateurs / Examinatrices : Rémi Gribonval, Patrick Pérez, Julien Mairal, François Malgouyres, Diane Larlus, Pierre Vandergheynst, Elisa Riccietti | |
Rapporteurs / Rapporteuses : Julien Mairal, François Malgouyres |
Mots clés
Résumé
Cette thèse s’intéresse à deux enjeux de frugalité et d’efficacité dans l’apprentissage profond moderne : frugalité en données et efficacité en ressources de calcul. Premièrement, nous étudions l’apprentissage auto-supervisé, une approche prometteuse en vision par ordinateur qui ne nécessite pas d’annotations des données pour l'apprentissage de représentations. En particulier, nous proposons d’unifier plusieurs fonctions objectives auto-supervisées dans un cadre de noyaux invariants par rotation, ce qui ouvre des perspectives en termes de réduction de coût de calcul de ces fonctions objectives. Deuxièmement, étant donné que l’opération prédominante des réseaux de neurones profonds est la multiplication matricielle, nous nous penchons sur la construction d’algorithmes rapides qui permettent d’effectuer la multiplication matrice-vecteur avec une complexité presque linéaire. Plus spécifiquement, nous étudions le problème de factorisation creuse de matrices sous contrainte de parcimonie "butterfly", une structure commune à plusieurs transformées rapides comme la transformée de Fourier discrète. La thèse établit des garanties théoriques sur l’algorithme de factorisation butterfly, et étudie le potentiel de la parcimonie butterfly pour la réduction du coût computationnel des réseaux de neurones lors de leur phase d’apprentissage ou d’inférence. Nous explorons notamment l’efficacité des implémentations GPU de la multiplication matricielle avec parcimonie butterfly, dans le but d’accélérer réellement des réseaux de neurones parcimonieux.