Contributions à une théorie de l'exploration pure en statistique séquentielle
Auteur / Autrice : | Antoine Barrier |
Direction : | Aurélien Garivier, Gilles Stoltz |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 20/07/2023 |
Etablissement(s) : | Lyon, École normale supérieure |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Laboratoire : Unité de Mathématiques Pures et Appliquées (Lyon ; 1991-....) - Laboratoire de mathématiques d'Orsay (1998-....) |
Jury : | Président / Présidente : Vianney Perchet |
Examinateurs / Examinatrices : Aurélien Garivier, Gilles Stoltz, Vianney Perchet, Odalric-Ambrym Maillard, Claire Vernade | |
Rapporteur / Rapporteuse : Odalric-Ambrym Maillard, Claire Vernade |
Mots clés
Résumé
Cette thèse, à la croisée entre les domaines de l’intelligence artificielle, de la statistique séquentielle et de l’optimisation, s’intéresse au problème d’identification du meilleur bras (en espérance) dans les bandits non structurés à K bras. Ce problème possède deux approches dont les niveaux de compréhension sont très différents. Le cadre à confiance fixée est le mieux compris : des stratégies asymptotiquement optimales sont connues, et l’on s’intéresse à l’obtention de garanties non asymptotiques pour, si possible, des stratégies simples et naturelles. Avec des bandits Gaussiens, nous proposons l’analyse à risque fini d’une nouvelle stratégie (asymptotiquement optimale) grâce aux propriétés de régularité de ce modèle. Cette stratégie modifie subtilement la règle d’attribution des tirages de l’algorithme Track-and-Stop en une règle plus prudente et interprétable. Dans le contexte plus général d’un modèle exponentiel, nous proposons l’ébauche d’une analyse de l’asymptotique optimalité d’algorithmes de type Top-Two adaptatifs, dont les règles de choix de tirages sont particulièrement simples. Par ailleurs, dans le cadre à budget fixé, où l’existence d’une hypothétique complexité reste à démontrer, nous proposons des généralisations à des modèles non-paramétriques des bornes (supérieures et inférieures) connues jusqu’à présent pour des modèles très spécifiques. Les bornes obtenues font intervenir des quantités de théorie de l’information plus précises que les écarts entre les moyennes qui apparaissaient précédemment. Ces nouvelles quantités pourraient être la clé pour mesurer la complexité de l’identification de meilleur bras à budget fixé.