Résoudre les problèmes d'exploration pure avec l'approche Top Two
Auteur / Autrice : | Marc Jourdan |
Direction : | Emilie Kaufmann, Rémy Degenne |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 14/06/2024 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille |
Jury : | Président / Présidente : Wouter Koolen |
Examinateurs / Examinatrices : Aurélien Garivier | |
Rapporteur / Rapporteuse : Alexandre Proutière, Sandeep Juneja |
Résumé
Dans les problèmes d'exploration pure pour les bandits stochastiques à bras multiples,l'objectif est de répondre à des questions concernant un ensemble de distributions inconnues(modélisant par exemple l'efficacité d'un traitement) à partir desquelles nous pouvons collecterdes échantillons (mesurer son effet), et de fournir ensuite des garanties sur la réponse proposée.L'exemple archétypal est le problème de l'identification du meilleur bras, dans lequel l'agentcherche à identifier le bras étant le plus efficace en moyenne.Cette thèse s'intéresse à la classe des algorithmes Top Two, dans lesquels un leader estopposé à un challenger, ce qui oriente les efforts d'échantillonnage ultérieurs pour validerla supériorité du leader. Nous avons introduit une définition unifiée de l'approche Top Two,mettant en avant quatre composants importants. Compte tenu de leur simplicité, de leurinterprétabilité, de leur généralisation et de leur polyvalence, les algorithmes Top Two sontprometteurs pour être adoptés pour différentes applications. Cette thèse s'efforce d'établirl'approche Top Two comme une méthodologie fondée sur des principes statistiques, offrant desgaranties théoriques quasiment optimales ainsi que des performances empirique excellentes.Nous abordons différentes formulations de bandits stochastiques à plusieurs bras, avecdes classes de distributions variées ou des hypothèses structurelles sur les moyennes. Nousavons aussi étudié différents problèmes d'exploration pure, notamment l'identification dumeilleur bras ou d'un bras de qualité acceptable. La principale contribution de cette thèseréside dans l'obtention de garanties théoriques pour l'approche Top Two avec plusieurs mesuresde performance. Dans le cas où un niveau de confiance est donné, les algorithmes Top Twocollectent un nombre moyen d'échantillons qui est asymptotiquement optimal (lorsque leniveau de confiance tend vers un). Par ailleurs, nous proposons un algorithme Top Two quioffre à tout moment des garanties sur la probabilité de se tromper dans l'identification d'unbras de qualité acceptable.