Problèmes de décision séquentielle dans des environnements non-stationnaires
Auteur / Autrice : | Yoan Russac |
Direction : | Olivier Cappé, Aurélien Garivier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 01/03/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
Equipe de recherche : Traitement et classification de signaux (Paris) | |
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Florence D'Alché-Buc |
Examinateurs / Examinatrices : Olivier Cappé, Aurélien Garivier, Florence D'Alché-Buc, Sébastien Gadat, Junya Honda, Arnak S. Dalalyan, Michal Valko, Alessandro Lazaric | |
Rapporteurs / Rapporteuses : Sébastien Gadat, Junya Honda |
Mots clés
Mots clés contrôlés
Résumé
La version classique du modèle de bandit suppose que les distributions de probabilité des récompenses sont indépendantes et identiquement distribuées. Pour autant, cette hypothèse est restrictive dans de nombreux cas, puisqu’elle ne permet pas de prendre en compte d’éventuels changements de comportements. Dans le domaine médical, l’efficacité d’un traitement peut diminuer au cours du temps. Pour un site internet d’information en temps réel, le taux de consultation d’une page diminue à raison de sa date d’ancienneté. Les tendances de mode et les préférences des consommateurs évoluent rapidement. Un algorithme de recommendation ignorant ces formes de non-stationarité est alors susceptible de faire des suggestions sous-optimales. Ainsi, l’objet de cette thèse est l’étude des algorithmes de bandits stochastiques dans des environnements non-stationnaires. La non-stationarité peut être incorporée de plusieurs manières dans les modèles de bandits. Dans un premier temps, nous étudions une variante du problème d’identification du meilleur bras. Cette variante correspond à un système d’apprentissage qui cherche à identifier l’ensemble des options qui sont meilleures qu’un bras de contrôle, et ce en présence de sous-populations. Entre autres, l’utilisation de sous-populations permet la modélisation de l’évolution temporelle des différents bras. Nous proposons ensuite des algorithmes avec des garanties théoriques fortes pour la minimisation du regret et étudions le compromis exploration-exploitation pour de tels environnements. Nos recherches portent sur trois modèles différents : le bandit classique multi-bras, le bandit linéaire ou encore le bandit linéaire généralisé. Nous examinons les spécificités de chacun de ces trois modèles, ainsi que les défis techniques liés à la non-stationarité.