Sequential decision problems in non-stationary environments

Yoan Russac

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Problèmes de décision séquentielle dans des environnements non-stationnaires

FR |

EN

Auteur / Autrice :	Yoan Russac
Direction :	Olivier Cappé, Aurélien Garivier
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 01/03/2022
Etablissement(s) :	Université Paris sciences et lettres
Ecole(s) doctorale(s) :	École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche :	Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique
	Equipe de recherche : Traitement et classification de signaux (Paris)
	établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....)
Jury :	Président / Présidente : Florence D'Alché-Buc
	Examinateurs / Examinatrices : Olivier Cappé, Aurélien Garivier, Florence D'Alché-Buc, Sébastien Gadat, Junya Honda, Arnak S. Dalalyan, Michal Valko, Alessandro Lazaric
	Rapporteurs / Rapporteuses : Sébastien Gadat, Junya Honda

Mots clés

FR |

EN

Mots clés contrôlés

Informatique

Mots clés libres

Apprentissage séquentiel

Algorithmes de bandits

Environnements non stationnaires

Minimisation du regret

Résumé

FR |

EN

La version classique du modèle de bandit suppose que les distributions de probabilité des récompenses sont indépendantes et identiquement distribuées. Pour autant, cette hypothèse est restrictive dans de nombreux cas, puisqu’elle ne permet pas de prendre en compte d’éventuels changements de comportements. Dans le domaine médical, l’efficacité d’un traitement peut diminuer au cours du temps. Pour un site internet d’information en temps réel, le taux de consultation d’une page diminue à raison de sa date d’ancienneté. Les tendances de mode et les préférences des consommateurs évoluent rapidement. Un algorithme de recommendation ignorant ces formes de non-stationarité est alors susceptible de faire des suggestions sous-optimales. Ainsi, l’objet de cette thèse est l’étude des algorithmes de bandits stochastiques dans des environnements non-stationnaires. La non-stationarité peut être incorporée de plusieurs manières dans les modèles de bandits. Dans un premier temps, nous étudions une variante du problème d’identification du meilleur bras. Cette variante correspond à un système d’apprentissage qui cherche à identifier l’ensemble des options qui sont meilleures qu’un bras de contrôle, et ce en présence de sous-populations. Entre autres, l’utilisation de sous-populations permet la modélisation de l’évolution temporelle des différents bras. Nous proposons ensuite des algorithmes avec des garanties théoriques fortes pour la minimisation du regret et étudions le compromis exploration-exploitation pour de tels environnements. Nos recherches portent sur trois modèles différents : le bandit classique multi-bras, le bandit linéaire ou encore le bandit linéaire généralisé. Nous examinons les spécificités de chacun de ces trois modèles, ainsi que les défis techniques liés à la non-stationarité.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Problèmes de décision séquentielle dans des environnements non-stationnaires

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Problèmes de décision séquentielle dans des environnements non-stationnaires

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses