Thèse soutenue

Apprentissage par renforcement à champ moyen : une perspective de contrôle optimal

FR  |  
EN
Auteur / Autrice : Athanasios Vasileiadis
Direction : François Delarue
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 23/02/2024
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences fondamentales et appliquées (Nice ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire J.-A. Dieudonné (Nice)
Jury : Président / Présidente : Mireille Bossy
Examinateurs / Examinatrices : François Delarue, Mireille Bossy, Noufel Frikha, Huyên Pham, Zhenjie Ren, Francisco Silva, Patricia Reynaud-Bouret, Nicole Bäuerle
Rapporteurs / Rapporteuses : Noufel Frikha, Huyên Pham

Résumé

FR  |  
EN

L'apprentissage par renforcement est un paradigme clé de l'apprentissage machine, dont l'objectif est d'inciter les agents à tirer les leçons de leur propre expérience passée afin qu'ils s'améliorent au fil du temps, voir par exemple la monographie [14]. À cet égard, les systèmes impliquant un grand nombre d'agents sont importants pour les applications, mais restent difficiles à traiter du point de vue numérique, voir par exemple le récent post [12]. Le renforcement de l'apprentissage avec plusieurs agents est généralement appelé "apprentissage de renforcement multi-agents" (MARL). Comme démontré dans la publication antérieure [15], cela peut couvrir diverses situations avec des agents opérant individuellement ou collectivement. L'analyse de l'apprentissage par renforcement s'appuie fortement sur les outils mathématiques de la théorie du contrôle et de la théorie des jeux. Tout comme les MARL, les deux peuvent également être confrontés à des difficultés lorsque la dimension augmente. Cela a incité plusieurs auteurs à mettre en œuvre une approche champ moyen, issue de la physique statistique, afin de réduire la complexité globale, voir entre autres les travaux fondateurs de Lasry and Lions [9] et de Huang, Caines et Malhame [7] et les deux monographies [3, 4] sur les jeux à champ moyen et le contrôle champ moyen. L'objectif du doctorat sera de mettre en œuvre une approche similaire de la gestion des MARL. L'idée a été étudiée, au moins pour les agents individuels, dans plusieurs documents récents, voir [8, 10, 13, 16]. Dans ces derniers, non seulement l'approche champ moyen permet de réduire la complexité de façon significative, mais elle fournit également des solutions distribuées (ou décentralisées), qui sont d'une grande utilité pratique. La mise en œuvre numérique est principalement abordée dans [13, 16]. Le lien avec les notions d'apprentissage dans la théorie des jeux est cité dans [10], sur la base d'idées antérieures, voir [2]. La première partie de la thèse consistera à revisiter les travaux existants. Cela demandera en particulier une analyse soigneuse de la stabilité portant à la fois sur le passage d'un système fini d'agents à un système infini et sur l'utilisation de stratégies approximatives (au lieu de stratégies exactes). À la lumière de [2], on peut s'attendre à ce que la monotonie joue un rôle dans l'analyse globale ; une autre orientation, mais plus prospective, consiste à discuter de l'influence d'un environnement stochastique sur le comportement des algorithmes eux-mêmes. Une autre partie de la thèse sera consacrée au cas de la coopération, voir par exemple [5], dont l'analyse s'appuiera sur la théorie du contrôle en champ moyen. Comme mentionné dans [13], des structures potentielles peuvent permettre de faire le lien entre les cas individuel et coopératif ; comme démontré dans [11], ces liens jouent un rôle dans la construction de politiques incitatives.