Thèse soutenue

La rétroaction de bandit sur classification et optimization multi-objective

FR  |  
EN
Auteur / Autrice : Hongliang Zhong
Direction : Liva RalaivolaEmmanuel Daucé
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/03/2016
Etablissement(s) : Ecole centrale de Marseille
Ecole(s) doctorale(s) : École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique fondamentale (Marseille) - Laboratoire d'informatique Fondamentale de Marseille
Jury : Examinateurs / Examinatrices : Thierry Artières, Alain Dutech
Rapporteur / Rapporteuse : Philippe Preux, Gilles Gasso

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Des problèmes de Bandit constituent une séquence d’allocation dynamique. D’une part, l’agent de système doit explorer son environnement ( à savoir des bras de machine) pour recueillir des informations; d’autre part, il doit exploiter les informations collectées pour augmenter la récompense. Comment d’équilibrer adéquatement la phase d’exploration et la phase d’exploitation, c’est une obscurité des problèmes de Bandit, et la plupart des chercheurs se concentrent des efforts sur les stratégies d’équilibration entre l’exploration et l’exploitation. Dans cette dissertation, nous nous concentrons sur l’étude de deux problèmes spécifiques de Bandit: les problèmes de Bandit contextuel et les problèmes de Bandit Multi- objectives. Cette dissertation propose deux aspects de contributions. La première concerne la classification sous la surveillance partielle, laquelle nous codons comme le problème de Bandit contextuel avec des informations partielles. Ce type des problèmes est abondamment étudié par des chercheurs, en appliquant aux réseaux sociaux ou systèmes de recommandation. Nous proposons une série d’algorithmes sur la base d’algorithme Passive-Aggressive pour résoudre des problèmes de Bandit contextuel. Nous profitons de sa fondations, et montrons que nos algorithmes sont plus simples à mettre en œuvre que les algorithmes en état de l’art. Ils réalisent des biens performances de classification. Pour des problèmes de Bandit Multi-objective (MOMAB), nous proposons une méthode motivée efficace et théoriquement à identifier le front de Pareto entre des bras. En particulier, nous montrons que nous pouvons trouver tous les éléments du front de Pareto avec un budget minimal dans le cadre de PAC borne.