Thèse soutenue

Sous-espaces de politiques pour l'apprentissage par renforcement profond

FR  |  
EN
Auteur / Autrice : Jean-Baptiste Gaya
Direction : Laure SoulierLudovic DenoyerAlessandro Lazaric
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 26/04/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Éric Gaussier
Examinateurs / Examinatrices : Marc'Aurelio Ranzato, Katja Hofmann, Olivier Sigaud
Rapporteurs / Rapporteuses : Balázs Kégl, Pierre-Yves Oudeyer

Résumé

FR  |  
EN

Ce travail explore les "Sous-espaces de politiques pour l'apprentissage par renforcement profond", introduisant une approche novatrice pour relever les défis d'adaptabilité et de généralisation dans l'apprentissage par renforcement profond (RL). Situé dans le contexte plus large de la révolution de l'IA, cette recherche met l'accent sur la transition vers des modèles évolutifs et généralisables en RL, inspirée par les avancées des architectures et méthodologies d'apprentissage profond. Elle identifie les limites des applications actuelles de RL, notamment pour atteindre une généralisation à travers diverses tâches et domaines, proposant un changement de paradigme vers des méthodes adaptatives. La recherche aborde d'abord la généralisation zero-shot, évaluant la maturité de l'apprentissage profond par renforcement pour généraliser à des tâches inédites sans entraînement supplémentaire. À travers des investigations sur la généralisation morphologique et l'apprentissage par renforcement multi-objectif (MORL), des limitations critiques des méthodes actuelles sont identifiées, et de nouvelles approches pour améliorer les capacités de généralisation sont introduites. Notamment, les travaux sur le moyennage des poids en MORL présentent une méthode simple pour optimiser plusieurs objectifs, montrant un potentiel prometteur pour une exploration future.La contribution principale réside dans le développement d'un cadre de "Sous-espaces de politiques". Cette approche novatrice préconise le maintien d'un paysage dynamique de solutions dans un espace paramétrique plus petit, tirant profit du moyennage des poids des réseaux de neurones. Une diversité fonctionnelle est obtenue avec un minimum de surcharge computationnelle grâce à l'interpolation des poids entre les paramètres des réseaux de neurones. Cette méthodologie est explorée à travers diverses expériences et contextes, y compris l'adaptation few-shot et l'apprentissage par renforcement continu, démontrant son efficacité et son potentiel d'évolutivité et d'adaptabilité dans des tâches RL complexes.La conclusion revient sur le parcours de la recherche, soulignant les implications du cadre des "Sous-espaces de politiques" pour les futures recherches en IA. Plusieurs directions futures sont esquissées, notamment l'amélioration de l'évolutivité des méthodes de sous-espaces, l'exploration de leur potentiel dans des contextes décentralisés, et la prise en compte des défis en matière d'efficacité et d'interprétabilité. Cette contribution fondamentale au domaine du RL ouvre la voie à des solutions innovantes pour relever les défis de longue date en matière d'adaptabilité et de généralisation, marquant une étape significative vers le développement d'agents autonomes capables de naviguer de manière transparente dans un large éventail de tâches.