Prise de décision dans les systèmes multi-agents : délais, adaptabilité et apprentissage dans les jeux
Auteur / Autrice : | Yu-Guan Hsieh |
Direction : | Jérôme Malick, Panayotis Mertikopoulos, Franck Iutzeler |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et informatique |
Date : | Soutenance le 07/11/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann (Grenoble) |
Jury : | Président / Présidente : Anatoli Juditsky |
Examinateurs / Examinatrices : Nicolo Cesa-Bianchi, Maryam Kamgarpour, Alexandre d' Aspremont | |
Rapporteurs / Rapporteuses : Constantinos Daskalakis, Sylvain Sorin |
Mots clés
Mots clés contrôlés
Résumé
Face au déploiement croissant d'algorithmes de décision et d'apprentissage dans les systèmes multi-agents, il devient impératif de comprendre leur efficacité et d'améliorer leurs performances. Cependant, la conception et l'analyse de ces systèmes se heurtent à défis importants, qui s'étendent des problèmes pratiques d'implémentation jusqu'à la complexité intrinsèque des dynamiques multi-agents, avec des interactions entre les agents peuvent être coopératives, compétitives ou un mélange des deux.Cette thèse vise à naviguer dans ce paysage complexe, en examinant séparément deux aspects critiques : l'impact du délai et des interactions entre agents aux intérêts contradictoires. L'objectif ici est d'établir des connaissances fondamentales sur la façon dont le flux d'informations et les interactions stratégiques influencent les processus d'apprentissage et de prise de décision. Nos méthodes s'inscrivent dans le cadre de l'optimisation décentralisée et de la théorie des jeux, et utilisent une approche d'apprentissage en ligne pour gérer la non-stationnarité de l'environnement.Concrètement, nos premières contributions concernent l'étude d'un algorithme du type "dual averaging" dans l'apprentissage en ligne coopératif. Nous considérons pour ceci une configuration qui comporte de l'asynchronicité et des délais, présentant des obstacles à l'analyse classique du regret. Malgré cela, nous introduisons plusieurs concepts clés, dont les itérés virtuels et la permutation fidèle, qui nous permettent d'établir des bornes sur les regrets dans ce contexte. Nos résultats s'étendent également à une version optimiste du dual averaging, qui exploite la variation lente de la perte subie par les agents.Ensuite, nous étudions la convergence vers les équilibres et la garantie de performance individuelle, mesurée par le regret, dans l'apprentissage dans les jeux. Le comportement ou la décision de chaque agent peut influencer les résultats des autres, créant une dynamique complexe qui doit être soigneusement analysée. Nos algorithmes sont à nouveau basés sur le principe optimiste, incorporant une étape de prévision qui réutilise l'information la plus récente.Il est important de souligner que, dans les deux contextes, nous mettons l'accent sur l'adaptabilité de nos algorithmes et leur résilience face à l'incertitude lors des interactions. Nos méthodes fonctionnent sans aucune coordination entre les agents et peuvent être implémentées même par une entité qui ignore l'environnement avec laquelle elle interagit. Une particularité de notre approche est qu'elle fournit des garanties adaptatives, robustes face à la nature dynamique des environnements, où l'incertitude peut découler d'un manque de connaissance ou être modélisée, comme nous le faisons, avec un bruit dans la cadre de l'apprentissage dans les jeux.