La rétroaction de bandit sur classification et optimization multi-objective
Auteur / Autrice : | Hongliang Zhong |
Direction : | Liva Ralaivola, Emmanuel Daucé |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 29/03/2016 |
Etablissement(s) : | Ecole centrale de Marseille |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique fondamentale (Marseille) - Laboratoire d'informatique Fondamentale de Marseille |
Jury : | Examinateurs / Examinatrices : Thierry Artières, Alain Dutech |
Rapporteur / Rapporteuse : Philippe Preux, Gilles Gasso |
Mots clés
Mots clés contrôlés
Résumé
Des problèmes de Bandit constituent une séquence d’allocation dynamique. D’une part, l’agent de système doit explorer son environnement ( à savoir des bras de machine) pour recueillir des informations; d’autre part, il doit exploiter les informations collectées pour augmenter la récompense. Comment d’équilibrer adéquatement la phase d’exploration et la phase d’exploitation, c’est une obscurité des problèmes de Bandit, et la plupart des chercheurs se concentrent des efforts sur les stratégies d’équilibration entre l’exploration et l’exploitation. Dans cette dissertation, nous nous concentrons sur l’étude de deux problèmes spécifiques de Bandit: les problèmes de Bandit contextuel et les problèmes de Bandit Multi- objectives. Cette dissertation propose deux aspects de contributions. La première concerne la classification sous la surveillance partielle, laquelle nous codons comme le problème de Bandit contextuel avec des informations partielles. Ce type des problèmes est abondamment étudié par des chercheurs, en appliquant aux réseaux sociaux ou systèmes de recommandation. Nous proposons une série d’algorithmes sur la base d’algorithme Passive-Aggressive pour résoudre des problèmes de Bandit contextuel. Nous profitons de sa fondations, et montrons que nos algorithmes sont plus simples à mettre en œuvre que les algorithmes en état de l’art. Ils réalisent des biens performances de classification. Pour des problèmes de Bandit Multi-objective (MOMAB), nous proposons une méthode motivée efficace et théoriquement à identifier le front de Pareto entre des bras. En particulier, nous montrons que nous pouvons trouver tous les éléments du front de Pareto avec un budget minimal dans le cadre de PAC borne.