Mirror descent strategies for regret minimization and approachability

Joon Kwon

Thèse Année : 2016

Mirror descent strategies for regret minimization and approachability

Stratégies de descente miroir pour la minimisation du regret et l'approchabilité

(1)

Joon Kwon

Fonction : Auteur

Institut de Mathématiques de Jussieu - Paris Rive Gauche

Résumé

In Chapter I, we present the online linear optimization problem and study Mirror Descent strategies. Chapter II focuses on the case where the Decision Maker has a finite set of actions. We establish in Chapter III that FTPL strategies belong to the Mirror Descent family. In Chapter IV, we construct Mirror Descent strategies for Blackwell's approachability. They are then applied to the construction of optimal strategies for online combinatorial optimization and internal/swap regret minimization. Chapter V studies the regret minimization problem with the additional assumption that the payoff vectors have at most s nonzero components. We show that gains and losses are fundamentally different by deriving optimal regret bounds of different orders for those two cases. Chapter VI studies Blackwell's approachability with partial monitoring. We establish that optimal convergence rates are O(T−1/2) in the case of outcome-dependent signals, and O(T−1/3) in the general case. Chapter VII defines Mirror Descent strategies in continuous-time for which we establish a no-regret property. A comparison between discrete and continuous-time is then conducted. Chapter VIII establish a universal bound on the variations of bounded convex functions. As a byproduct, we obtain that every bounded convex function is Lipschitz continuous with respect to the Hilbert metric.

On présente dans le Chapitre I le problème d'online linear optimization, et on étudie les stratégies de descente miroir. Le Chapitre II se concentre sur le cas où le joueur dispose d'un ensemble fini d'actions. Le Chapitre III établit que les stratégies FTPL appartiennent à la famille de descente miroir. On construit au Chapitre IV des stratégies de descente miroir pour l'approchabilité de Blackwell. Celles-ci sont ensuite appliquées à construction de stratégies optimales pour le problème online combinatorial optimization et la minimisation du regret interne/swap. Le Chapitre V porte sur la minimisation du regret avec l'hypothèse supplémentaire que les vecteurs de paiement possèdent au plus s composantes non-nulles. On met en évidence une différence fondamentale entre les gains et les pertes en établissant des bornes optimales sur le regret d'ordre différents dans chacun de ces deux cas. Le Chapitre VI porte sur l'approchabilité de Blackwell avec observations partielles. On établit que les vitesses de convergence optimales sont O(T−1/2) pour des signaux dont les lois ne dépendent pas de l'action du joueur, et O(T−1/3) dans le cas général. Le Chapitre VII définit les stratégies de descente miroir en temps continu. On établit pour ces derniers une propriété de non-regret. On effectue ensuite une comparaison entre le temps continu et le temps discret. Enfin, le Chapitre VIII établit une borne universelle sur les variations des fonctions convexes bornées. On obtient en corollaire que toute fonction convexe bornée est lipschitzienne par rapport à la métrique de Hilbert.

Mots clés

Regret Approachability Miror descent

Regret Approchabilité Blackwell Jeux à observations partielles Descente miroir Analyse convexe Apprentissage

Domaines

Mathématiques générales [math.GM]

Fichier principal

2016PA066276.pdf (19.05 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-01446492

Soumis le : jeudi 26 janvier 2017-09:45:07

Dernière modification le : vendredi 3 mai 2024-09:58:40

Archivage à long terme le : vendredi 28 avril 2017-08:27:46

Dates et versions

tel-01446492 , version 1 (26-01-2017)

Identifiants

HAL Id : tel-01446492 , version 1

Citer

Joon Kwon. Mirror descent strategies for regret minimization and approachability. General Mathematics [math.GM]. Université Pierre et Marie Curie - Paris VI, 2016. English. ⟨NNT : 2016PA066276⟩. ⟨tel-01446492⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-PARIS7 UPMC CNRS THESES-UPMC INSMI STAR IMJ USPC SORBONNE-UNIVERSITE THESES-SU SU-SCIENCES UP-SCIENCES

347 Consultations

200 Téléchargements

Mirror descent strategies for regret minimization and approachability

Stratégies de descente miroir pour la minimisation du regret et l'approchabilité

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager