Tampons de Répétition Distribués pour passer l’Apprentissage Continu à l’Échelle
| Auteur / Autrice : | Thomas Bouvier |
| Direction : | Alexandru Costan, Gabriel Antoniu |
| Type : | Thèse de doctorat |
| Discipline(s) : | Informatique |
| Date : | Soutenance le 04/11/2024 |
| Etablissement(s) : | Rennes, INSA |
| Ecole(s) doctorale(s) : | École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes ; 2022-....) |
| Partenaire(s) de recherche : | Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Rennes, Bretagne-Atlantique) |
| Jury : | Président / Présidente : Cédric Tedeschi |
| Examinateurs / Examinatrices : Bruno Raffin, Eddy Caron, Ilkay Altintas | |
| Rapporteurs / Rapporteuses : Bruno Raffin, Eddy Caron |
Résumé
L'apprentissage profond est un outil d'extraction d'informations à partir de volumes de données massifs. Cependant, lorsqu'ils sont entraînés sur des tâches séquentielles (sans accès au jeu de données complet au début de l'entraînement), les réseaux de neurones souffrent d'oubli catastrophique, un phénomène qui donne davantage d'importance aux échantillons récents au détriment des connaissances acquises plus tôt. Cette limitation est problématique pour les applications exploitant des flux de données générés au fil du temps. Il est irréalisable de ré-entraîner des modèles à partir de zéro à chaque fois que de nouveaux échantillons sont ingérés, car cela s'accompagnerait de temps d'entraînement trop élevés.Dans cette thèse, nous présentons des techniques basées sur la répétition pour passer l'apprentissage continu à l'échelle. Les approches basées sur la répétition utilisent des échantillons représentatifs rencontrés précédemment pendant l'entraînement, afin d'augmenter les futurs minibatchs avec. Notre contribution principale porte sur la façon d'allier répétition d'échantillons représentatifs et parallélisme de données, qui est l'une des principales techniques pour passer des workloads à l'échelle sur les systèmes HPC. Nous proposons ainsi un tampon de répétition distribué exploitant de nombreuses techniques de parallélisation, permettant d'améliorer les performances prédictives du modèle sans allonger le temps entraînement.