Exploration fondée sur la diversité pour l'apprentissage par renforcement profond
Auteur / Autrice : | Valentin Macé |
Direction : | Olivier Sigaud, Nicolas Perrin-Gilbert |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Soutenance le 18/10/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....) |
Jury : | Président / Présidente : Stéphane Doncieux |
Examinateurs / Examinatrices : Cédric Colas, Sao Mai Nguyen | |
Rapporteur / Rapporteuse : Jean-Baptiste Mouret, Emmanuel Rachelson |
Mots clés
Résumé
Cette thèse étudie la famille de méthodes à l'intersection entre l'apprentissage par renforcement profond et les algorithmes évolutionnaires pour résoudre des problèmes où la capacité d'exploration des algorithmes, notamment leur gestion du dilemme exploration-exploitation, joue un rôle crucial. Historiquement, les algorithmes d'apprentissage par renforcement profond sont reconnus comme étant efficients en termes d'efficacité échantillonnale, c'est-à-dire du nombre d'interactions avec l'environnement qu'ils nécessitent pour résoudre un problème d'optimisation, mais ont cependant une capacité limitée à explorer l'espace des solutions possibles, du fait de leurs mécanismes d'exploration simples, souvent basés sur l'ajout de bruit stochastique dans l'espace d'action. D'un autre côté, les méthodes évolutionnaires, et plus particulièrement les algorithmes récents issus de la famille qualité-diversité, présentent une capacité d'exploration supérieure du fait de leurs mécanismes d'exploration axés sur la diversité des solutions au sein d'une population. Ils sont capables de résoudre des problèmes d'optimisation où il est nécessaire d'explorer l'espace des solutions de manière intelligente (en définissant un sous-espace d'intérêt appelé l'espace des comportements), mais sont souvent coûteux en termes d'interactions avec l'environnement. La première partie des contributions de la thèse (Chapitre 3) se concentre sur l'élaboration d'un algorithme, appelé QD-PG pour ''Quality-Diversity-Policy-Gradient'', permettant de résoudre des problèmes difficiles d'exploration dans des environnements de contrôle continu (robotique simulée), en se basant sur le cadre algorithmique des méthodes évolutionnaire, et en ayant pour objectif de le rendre efficient grâce aux méthodes basées sur la descente de gradient, issues de l'apprentissage par renforcement. Dans une deuxième partie (Chapitre 4), nous présentons: 1. Un nouvel algorithme de qualité-diversité, appelé MAP-Elites Low-Spread, qui permet de corriger le biais de variance de l'algorithme MAP-Elites et générer des solutions consistantes et régulières dans l'espace des comportements, 2. Une méthode basée sur l'apprentissage profond supervisé permettant de distiller une collection de solutions générées par MAP-Elites Low-Spread dans un réseau de neurones profond unique basé sur l'architecture Transformer, qui est capable de générer des trajectoires conditionnées sur un comportement désiré avec haute précision. Enfin, la dernière partie des contributions (Chapitre 5) introduit un travail en cours, dans lequel nous proposons d'utiliser un modèle basé sur l'architecture Transformer pour prédire l'état final d'automates cellulaires continus à partir de l'état initial et sans connaissance des règles qui les régissent. Nous faisons l'hypothèse qu'un tel modèle peut être employé, entre autres, à détecter automatiquement les patterns intéressants générés par un algorithme de recherche.