Résolution de problèmes d'affectation de crédit comportant différentes structures de prise de décision
Auteur / Autrice : | Oussama Sabri |
Direction : | Alexandre Muzy |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 13/12/2022 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Nice ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Informatique, signaux et systèmes (Sophia Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Frédérick Garcia |
Examinateurs / Examinatrices : Alexandre Muzy, Frédérick Garcia, Xiaolin Hu, Luc Lehéricy | |
Rapporteurs / Rapporteuses : Frédérick Garcia, Xiaolin Hu |
Mots clés
Résumé
Le problème d'attribution de crédit consiste à attribuer du (dis)crédit aux actions résultant d'un processus de prise de décisions. Dans cette thèse, les processus de prise de décisions sont étudiés sous la forme de structures parallèle et série. Pour la structure parallèle, les processus de prise de décision sont indépendants les uns des autres. Alors pour la structure série, les processus décisionnels sont exécutés dans l'ordre et dépendent éventuellement les uns des autres. La prise en compte de la structure d'un problème d'apprentissage doit permettre une meilleure attribution des crédits, et donc d'apprendre à associer les processus de prise de décision aux actions. Ces structures de prise de décisions sont considérées ici pour des apprentissages multi-agents et par renforcement. Dans un apprentissage multi-agent, on distingue les structures parallèle et série. Dans la structure parallèle, chaque agent interagit avec sa propre machine à sous (ou ensemble d'actions possibles) indépendamment des autres agents, et coopère avec les autres agents pour atteindre un objectif commun. Dans la structure série, deux niveaux de prise de décision sont impliqués : un agent dit leader (au niveau supérieur) et des agents dits followers (au niveau inférieur). L'agent leader attribue chaque agent follower à sa machine à sous. Ensuite, les agents followers choisissent indépendamment un levier. Enfin, nous abordons l'apprentissage d'une tâche comportementale d'un agent dans le contexte de l'apprentissage par renforcement où la récompense est retardée dans le temps et non Markovienne, pour une série de processus décisionnels dépendants. Pour toutes les structures de décision, un algorithme policy-gradient est proposé. La convergence des algorithmes est prouvée, et leurs performances sont évaluées et comparées sur des données artificielles.