Apprentissage par Renforcement Continu en Environnements Dynamiques
Auteur / Autrice : | Anthony Kobanda |
Direction : | Odalric-Ambrym Maillard |
Type : | Projet de thèse |
Discipline(s) : | Informatique et applications |
Date : | Inscription en doctorat le 06/04/2023 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | MADIS Mathématiques, sciences du numérique et de leurs interactions |
Partenaire(s) de recherche : | Laboratoire : INRIA - Institut national de recherche en informatique et en automatique Lille Nord Europe |
Equipe de recherche : INRIA-CRIStAL |
Mots clés
Résumé
Cette proposition de doctorat porte sur l'étude de l'apprentissage par renforcement continu dans des environnements changeants. L'apprentissage par renforcement est souvent appliqué dans des environnements stables, mais cette hypothèse n'est pas réaliste pour de nombreuses applications pratiques, telles que le développement de jeux vidéo ou les tâches d'agroécologie, où la dynamique, les tâches et les espaces d'observation/d'action peuvent changer fréquemment. L'objectif central de cette thèse est d'aborder le problème des agents à apprentissage continu qui sont confrontés séquentiellement à des tâches ou des environnements différents. Chaque environnement aura une dynamique, des espaces d'observation, des espaces d'action et des tâches uniques. Cette approche s'aligne sur les scénarios du monde réel où les environnements évoluent continuellement. La recherche sera axée sur le développement de nouvelles théories et de nouveaux algorithmes permettant à l'agent de s'adapter rapidement à un nouvel environnement sur la base d'informations préalables. Trois axes de recherche ont été définis : 1. ''Apprentissage par renforcement continu avec changements informés'' : L'agent est informé des changements entre deux environnements, ce qui simplifie le processus d'apprentissage. 2. ''Apprentissage par renforcement continu dans la nature : L'agent est confronté à des variations de l'environnement sans information préalable sur les changements. Il s'agit d'un scénario plus complexe, mais il permet d'avancer vers des systèmes entièrement automatiques. 3. ''Benchmarks pour les jeux vidéo'' : L'accent sera mis sur la création de repères pour évaluer et comparer les différentes approches, en tenant compte de la complexité de l'évaluation des systèmes sur la base de leur performance tout au long de leur durée de vie plutôt que sur la seule production finale. La collaboration pour le doctorat se fera entre l'INRIAL-Lille et Ubisoft, et son objectif est de faire progresser le domaine de l'apprentissage par renforcement continu, en rapprochant ces systèmes de l'industrialisation.