Thèse en cours

Croissance de réseaux de neurones pour l'apprentissage frugal

FR  |  
EN
Auteur / Autrice : Théo Rudkiewicz
Direction : Sylvain Chevallier
Type : Projet de thèse
Discipline(s) : Informatique mathématique
Date : Inscription en doctorat le 01/10/2024
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire Interdisciplinaire des Sciences du Numérique
Equipe de recherche : A&O - Apprentissage et Optimisation
Référent : Faculté des sciences d'Orsay

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

L'apprentissage frugal vise à réduire les ressources nécessaires à l'entraînement et à l'utilisation de modèles d'IA, en termes de pouvoir computationnel et de quantité de données. Pour ce faire, au lieu de partir de gros modèles et de les réduire après entraînement, nous explorons la piste de la croissance d'architecture, qui consiste à partir d'un tout petit réseau (potentiellement vide) et à le faire croître itérativement, selon les besoins de la tâche d'apprentissage statistique à résoudre, en localisant et en résolvant les problèmes d'expressivité: l'architecture s'adapte alors à la tâche en visant l'optimisation d'un compromis taille/performance. Afin d'améliorer ce compromis, on peut songer à l'incorporation des méthodes classiques de réduction de réseaux de neurones. La distillation et la discrétisation des poids peuvent être appliquées classiquement, en revanche la tensorisation demande à être adaptée, de façon non triviale. Plus généralement, les deux concepts-clefs de cette thèse sont la structure du graphe de calcul du réseau de neurones (tensorisation, partage de poids ou de fonctions) et l'évolution de cette structure lors de l'apprentissage (comment faire évoluer la représentation en tenseurs, quelle stratégie avoir pour développer l'architecture du réseau). Ces concepts peuvent se décliner de différentes façons et mènent notamment aux pistes de recherche suivantes: - la tensorisation: au lieu de faire croître une architecture en ajoutant des neurones ou couches utilisant des tenseurs pleins, on pourrait ajouter des tenseurs de rang faible. La difficulté est de savoir quel type de tensorisation retenir et comment faire évoluer la structure des tenseurs durant la croissance. - le partage de poids permettrait d'obtenir de meilleures propriétés de robustesse et de frugalité en données, en ce que l'estimation d'un poids partagé nécessite moins d'échantillons. De même, à d'autres échelles, on peut envisager de partager des sous-graphes entiers, entre différentes parties d'un même réseau de neurones, ou entre différents réseaux entraînés conjointement sur différentes tâches (apprentissage de module). - la stratégie de croissance. Un travail sur la formulation du manque d'expressivité, permettant de factoriser certains calculs et ainsi partager des quantités intermédiaires, peut conduire à des algorithmes plus efficaces pour estimer, localiser et combler lesdits manques. On peut alors s'appuyer sur les quantités ainsi calculées pour définir des stratégies de développement de l'architecture.