Thèse en cours

Approches frugales efficaces pour la réduction du temps d'inférence et des opérations en virgule flottante par seconde dans les réseaux de neurones profonds

FR  |  
EN
Auteur / Autrice : Ali Aghababaei harandi
Direction : Massih-Reza Amini
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/12/2022
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique de Grenoble
Equipe de recherche : AMA

Résumé

FR  |  
EN

L'avènement des réseaux de neurones profonds a été rendu possible notamment par une conjonction de développements matériels et logiciels, mais surtout par la possibilité de mobiliser de grandes capacités de calcul pour entraîner des modèles largement sur-paramétrés. Les RNP ont été appliqués avec succès dans de nombreuses applications telles que la vision par ordinateur, le traitement du langage naturel, les soins de santé ; pour n'en citer que quelques-uns, mais ils ne sont pas durables dans de nombreux cas. En effet, ces modèles sont coûteux en temps d'apprentissage et en consommation d'énergie, et ont également une empreinte carbone importante : par exemple, l'apprentissage du modèle de langage GPT-3 équivaut à plusieurs vols aller-retour entre New York et San Francisco. Outre le fait que les NN à grande échelle sont des modèles complexes ayant un impact négatif sur l'environnement, leur déploiement est également entravé par le fait qu'un modèle ne peut pas être formé entièrement sur un seul serveur GPU, et le long temps d'inférence est peu pratique en général. De plus, ces modèles ont été largement développés dans le cadre de l'apprentissage supervisé pour des tâches nécessitant un grand nombre d'instances d'apprentissage étiquetées. La création de collections étiquetées prend du temps et, dans de nombreuses situations c'est une tâche impossible. L'objectif de cette thèse est d'utiliser un nombre limité de données d'entraînement étiquetées avec un grand ensemble de données non étiquetées en extrayant des tâches auxiliaires connexes et en les résolvant simultanément avec la tâche principale basée sur les résultats de la thèse de Loic Pauletto qui sera soutenue en Juillet 2022 (CIFRE ATOS). Par exemple, l'identification des relations entre les instances et les classes existantes spécifiées dans l'ensemble d'apprentissage étiqueté peut être une tâche principale dans la classification des images. Une tâche auxiliaire serait d'apprendre les rotations, en les identifiant au préalable sur des données d'entraînement non étiquetées. En particulier, nous nous intéressons à répondre à ces questions : Dans quelle mesure les étiquettes de données d'entraînement sont-elles indispensables dans la recherche d'architecture d'un réseau de neurones ? Est-il possible de trouver des architectures de haute qualité en utilisant un petit nombre d'observations pour lesquelles nous avons des étiquettes de sortie, conjointement avec un grand nombre d'observations non étiquetées ? Pour cela, nous envisageons de développer un cadre d'apprentissage auto-supervisé multi-cibles pour la recherche d'optimale d'architecture en mettant en place des outils de mesure de la qualité de l'architecture de manière non supervisée lors de la phase de recherche. L'auto-supervision consistera à apprendre itérativement un méta-modèle basé sur les prédictions de DNNs générés par le méta-modèle précédent sur des données non étiquetées en mesurant leur qualité avec les outils qui seront développés. Nous voudrions également examiner des approches basées sur la décomposition tensorielle pour réduire les poids des réseaux de neurones générés par cette recherche optimale d'architecture, en nous appuyant sur notre expérience existante sur ce sujet. Nous appliquons par exemple la stabilité de l'algorithme de compression proposé, en imposant des contraintes d'orthonormalité à la décomposition. En résumé, le but de cette étude est de développer des modèles RNP dépendants des tâches avec une architecture appropriée et des paramètres compressés qui entraînent des réductions significatives en nombre d'opérations flottantes et de l'utilisation de la mémoire en tirant parti de la structure des exemples non étiquetés ainsi que de l'information sur des exemples étiquetés.