Thèse soutenue

Sur quelques questions d'adaptation dans des problèmes de bandits stochastiques

FR  |  
EN
Auteur / Autrice : Hédi Hadiji
Direction : Gilles StoltzPascal Massart
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 04/12/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....)
référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)
Jury : Président / Présidente : Vianney Perchet
Examinateurs / Examinatrices : Alexandra Carpentier, Anatoli Juditsky, Tim Van Erven, Gilles Blanchard
Rapporteurs / Rapporteuses : Alexandra Carpentier, Anatoli Juditsky

Résumé

FR  |  
EN

Cette thèse s'inscrit dans le domaine des statistiques séquentielles. Le cadre principal étudié est celui des bandits stochastiques à plusieurs bras, cadre idéal qui modélise le dilemme exploration-exploitation face à des choix répétés. La thèse est composée de quatre chapitres, précédés d'une introduction. Dans la première partie du corps de la thèse, on présente un nouvel algorithme capable d'atteindre des garanties optimales à la fois d'un point de vue distribution-dépendent et distribution-free. Les deux chapitres suivants sont consacrés à des questions dites d'adaptation. D'abord, on propose un algorithme capable de s'adapter à la régularité inconnue dans des problèmes de bandits continus, mettant en évidence le coût polynomial de l'adaptation en bandits continus. Ensuite, on considère un problème d'adaptation au supports pour des problèmes de bandits à K bras, à distributions de paiements bornés dans des intervalles inconnus. Enfin, dans un dernier chapitre un peu à part, on étudie un cadre légèrement différent de bandits préservant la diversité. On montre que le regret optimal dans ce cadre croît à des vitesses différentes des vitesses classiques, avec notamment la possibilité d'atteindre un regret constant sous certaines hypothèses.