Analyse de stratégies bayésiennes et fréquentistes pour l'allocation séquentielle de ressources
| Auteur / Autrice : | Émilie Kaufmann |
| Direction : | Olivier Cappé, Aurélien Garivier |
| Type : | Thèse de doctorat |
| Discipline(s) : | Signal et images |
| Date : | Soutenance le 01/10/2014 |
| Etablissement(s) : | Paris, ENST |
| Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) |
| Jury : | Président / Présidente : Jean-Michel Marin |
| Examinateurs / Examinatrices : Thomas Bonald, Gérard Biau | |
| Rapporteurs / Rapporteuses : Nicolo Cesa-Bianchi, Olivier Catoni, Rémi Munos | |
| DOI : | 10.70675/afb4a2f2z019ez4d2azb02ez3d2ace7b2902 |
Mots clés
Mots clés contrôlés
Résumé
Dans cette thèse, nous étudions des stratégies d’allocation séquentielle de ressources. Le modèle statistique adopté dans ce cadre est celui du bandit stochastique à plusieurs bras. Dans ce modèle, lorsqu’un agent tire un bras du bandit, il reçoit pour récompense une réalisation d’une distribution de probabilité associée au bras. Nous nous intéressons à deux problèmes de bandit différents : la maximisation de la somme des récompenses et l’identification des meilleurs bras (où l’agent cherche à identifier le ou les bras conduisant à la meilleure récompense moyenne, sans subir de perte lorsqu’il tire un «mauvais» bras). Nous nous attachons à proposer pour ces deux objectifs des stratégies de tirage des bras, aussi appelées algorithmes de bandit, que l’on peut qualifier d’optimales. La maximisation des récompenses est équivalente à la minimisation d’une quantité appelée regret. Grâce à une borne inférieure asymptotique sur le regret d’une stratégie uniformément efficace établie par Lai et Robbins, on peut définir la notion d’algorithme asymptotiquement optimal comme un algorithme dont le regret atteint cette borne inférieure. Dans cette thèse, nous proposons pour deux algorithmes d’inspiration bayésienne, Bayes-UCB et Thompson Sampling, une analyse à temps fini dans le cadre des modèles de bandit à récompenses binaires, c’est-à-dire une majoration non asymptotique de leur regret. Cette majoration permetd’établir l’optimalité asymptotique des deux algorithmes. Dans le cadre de l’identification des meilleurs bras, on peut chercher à déterminer le nombre total d’échantillons des bras nécessaires pour identifier, avec forte probabilité, le ou les meilleurs bras, sans la contrainte de maximiser la somme des observations. Nous définissons deux termes de complexité pour l’identification des meilleurs bras dans deux cadres considérés dans la littérature, qui correspondent à un budget fixé ou à un niveau de confiance fixé. Nous proposons de nouvelles bornes inférieures sur ces complexités, et nous analysons de nouveaux algorithmes, dont certains atteignent les bornes inférieures dans des cas particuliers de modèles de bandit à deux bras, et peuvent donc être qualifiés d’optimaux.