Méthodes séquentielles pour la prise de décision robuste

par Yoan Russac

Projet de thèse en Informatique

Sous la direction de Olivier Cappé et de Aurélien Garivier.

Thèses en préparation à Paris Sciences et Lettres , dans le cadre de Sciences Mathématiques de Paris Centre , en partenariat avec DIENS - Département d'informatique de l'École normale supérieure (laboratoire) et de Ecole normale supérieure (établissement de préparation de la thèse) depuis le 01-09-2018 .


  • Résumé

    Les modèles de bandit multi-bras sont utilisés pour étudier les scénarios d'apprentissage en ligne où les actions sont choisies séquentiellement. Ces modèles garantissent d'une part une exploration suffisante des différentes hypothèses et permettent d'autre part une maximisation de l'utilité en se concentrant graduellement sur les meilleures actions. Dans cette thèse, nous nous intéresserons plus particulièrement aux contextes dans lesquels les différentes actions sont structurées: par exemple, des paires d'attributs avec des valeurs ou même des règles de décision. On s'intéresse en priorité à la prise de décision séquentielle pour des décisions complexes, c'est à dire qui ne se réduisent pas au scénario classique du choix de l'unique meilleure action. Nous nous pencherons aussi sur des scénarios mixtes où l'on doit faire des choix avec des garanties statistiques tout en contrôlant le regret par rapport à une séquence optimale d'actions étant donné une fonction de récompense. Par ailleurs, nous considérerons des scénarios dans lesquels l'apprentissage en ligne implique des interactions répétées avec une population d'individus comme dans le cas des traitement médicaux. Dans ces applications, l'enjeu est d'étudier des modèles dans lesquels chaque individu de la population aussi bien que les variations inter-individus sont pris en compte par le système de décision séquentiel.

  • Titre traduit

    Sequential Methods for Robust decision making


  • Résumé

    The multi-armed bandit model has emerged in recent years as a generic paradigm to study online learning scenarios in which actions are tried sequentially so as to balance, on one side, fair exploration of all possible hypotheses and, on the other hand, utility maximization, by gradually focusing on the most valuable actions. In this PhD we will consider more specifically contexts in which the actions that can be performed, are structured -consisting, for instance, of pairs of attributes and values or even of complete decision rules- and the focus is put on reaching, as fast as possible, a statistically certified complex decision. Where by "complex", we mean a decision that does not reduce to the usual choice of a single best action. We are also interested in mixed scenarios where one needs to reach decisions with some statistical guarantees while controlling the regret with respect to the optimal sequence of actions, given some reward function. We will also consider scenarios in which the online experiment involves repeated interactions with a population of individuals, as in medical contexts for instance. In these applications, the challenge is to develop models in which all individuals from the population as well as their inter-individual variations are taken into account during the sequential decision process.