Apprentissage par renforcement inspiré des bandits pour explorer de vastes environnements stochastiques
| Auteur / Autrice : | Waris Radji |
| Direction : | Odalric-Ambrym Maillard |
| Type : | Projet de thèse |
| Discipline(s) : | Informatique et applications |
| Date : | Inscription en doctorat le 01/10/2024 |
| Etablissement(s) : | Université de Lille (2022-....) |
| Ecole(s) doctorale(s) : | MADIS Mathématiques, sciences du numérique et de leurs interactions |
| Partenaire(s) de recherche : | Laboratoire : INRIA - Institut national de recherche en informatique et en automatique Lille Nord Europe |
| Equipe de recherche : INRIA-CRIStAL |
Mots clés
Résumé
L'objectif de ce doctorat est de combiner des stratégies solides issues de la littérature récente sur les bandits à bras multiples et les MDP discrètes, dans l'apprentissage par renforcement profond afin d'aborder la prise de décision saine dans les grands systèmes dynamiques stochastiques. dynamiques stochastiques. Ces dernières années ont été marquées par des avancées majeures dans divers aspects de la théorie des bandits, y compris les bandits structurés, combinatoire, l'aversion pour le risque et l'optimalité non paramétrique, mais les systèmes dynamiques posent toujours problème. Parallèlement, les stratégies d'apprentissage profond ont progressé sur les grands systèmes déterministes, mais peinent à gérer les systèmes stochastiques. Cette thèse de doctorat propose d'étudier comment les stratégies de bandits peuvent être utilisées et étendues pour revisiter les algorithmes d'apprentissage par renforcement. algorithmes d'apprentissage par renforcement, afin de permettre une application dans de grands systèmes stochastiques tels que ceux observés dans les applications sociétales, y compris les soins de santé ou l'agronomie.