Thèse soutenue

Apprentissage continu classe par classe pour les réseaux de neurones profonds

FR  |  
EN
Auteur / Autrice : Guillaume Hocquet
Direction : Damien Querlioz
Type : Thèse de doctorat
Discipline(s) : Electronique et Optoélectronique, Nano- et Microtechnologies
Date : Soutenance le 30/06/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Electrical, optical, bio-physics and engineering
Partenaire(s) de recherche : Laboratoire : Centre de nanosciences et de nanotechnologies (Palaiseau, Essonne ; 2016-....)
référent : Faculté des sciences d'Orsay
Jury : Président / Présidente : Jacques-Olivier Klein
Examinateurs / Examinatrices : Martial Mermillod, Vincent Gripon, Pierre Bessière, Claudia Teodora Petrisor
Rapporteurs / Rapporteuses : Martial Mermillod, Vincent Gripon

Résumé

FR  |  
EN

Nous nous intéressons au problème de l'apprentissage continu de réseaux de neurones artificiels dans le cas où les données ne sont accessibles que pour une seule catégorie à la fois. Pour remédier au problème de l'oubli catastrophique qui limite les performances d'apprentissage dans ces conditions, nous proposons une approche basée sur la représentation des données d'une catégorie par une loi normale. Les transformations associées à ces représentations sont effectuées à l'aide de réseaux inversibles, qui peuvent alors être entraînés avec les données d'une seule catégorie. Chaque catégorie se voit attribuer un réseau pour représenter ses caractéristiques. Prédire la catégorie revient alors à identifier le réseau le plus représentatif. L'avantage d'une telle approche est qu'une fois qu'un réseau est entraîné, il n'est plus nécessaire de le mettre à jour par la suite, chaque réseau étant indépendant des autres. C'est cette propriété particulièrement avantageuse qui démarque notre méthode des précédents travaux dans ce domaine. Nous appuyons notre démonstration sur des expériences réalisées sur divers jeux de données et montrons que notre approche fonctionne favorablement comparé à l'état de l'art. Dans un second temps, nous proposons d'optimiser notre approche en réduisant son impact en mémoire en factorisant les paramètres des réseaux. Il est alors possible de réduire significativement le coût de stockage de ces réseaux avec une perte de performances limitée. Enfin, nous étudions également des stratégies pour produire des réseaux capables d'être réutilisés sur le long terme et nous montrons leur pertinence par rapport aux réseaux traditionnellement utilisés pour l'apprentissage continu.