Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement : application à la commande d'un système distribué de micromanipulation

Laëtitia Matignon

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Laëtitia Matignon
Direction :	Nadine Lefort-Piat
Type :	Thèse de doctorat
Discipline(s) :	Automatique
Date :	Soutenance en 2008
Etablissement(s) :	Besançon
Partenaire(s) de recherche :	autre partenaire : Université de Franche-Comté. UFR des sciences et techniques

Mots clés

FR

Mots clés contrôlés

Traitement réparti

Mots clés libres

Agents coopératifs

Agents adaptatifs

Résumé

FR |

EN

De nombreuses applications peuvent être formulées en termes de systèmes distribués que ce soit une nécessité face à une distribution physique des entités (réseaux, robotique mobile) ou un moyen adopté face à la complexité d'appréhender un problème de manière globale. A travers l'utilisation conjointe de méthodes dites d'apprentissage par renforcement et des systèmes multi-agents, des agents autonomes coopératifs peuvent apprendre à résoudre de manière décentralisée des problèmes complexes en s'adaptant à ceux-ci afin de réaliser un objectif commun. Les méthodes , d'apprentissage par renforcement ne nécessitent aucune connaissance a priori sur la dynamique du système, celui-ci pouvant être stochastique et non-linéaire. Cependant, afin d'améliorer la vitesse d'apprentissage, des méthodes d'injection de connaissances pour les problèmes de plus court chemin stochastique sont étudiées et une fonction d'influence générique est proposée. Nous nous intéressons ensuite au cas d'agents indépendants situés daJ1S des jeux de Markov d'équipe. Dans ce cadre, les agents apprenant par renforcement doivent surmonter plusieurs enjeux tels que la coordination ou l'impact de l'exploration. L'étude de ces enjeux permet tout d'abord de synthétiser les caractéristiques des méthodes décentralisées d'apprentissage par renforcement existantes Ensuite, au vu des difficultés rencontrées par ces approches, deux algorithmes sont proposés. Le premier est le Q-learning hystérétique qui repose sur des agents « à tendance optimiste réglable ». Le second est le Swing befween Optimistic or Neutra/ (SOoN) qui permet à des agents indépendants de s'adapter automatiquement à la stochasticité de l'environnement. Les expérimentations sur divers jeux de Markov d'équipe montrent notamment que le SOoN surmonte les principaux facteurs de non-coordination et est robuste face à l'exploration des autres agents. Une extension de ces travaux à la commande décentralisée d'un système distribué de micromanipulation (smart surface) dans un cas partiellement observable est enfin exposée.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement : application à la commande d'un système distribué de micromanipulation

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Synthèse d'agents adaptatifs et coopératifs par apprentissage par renforcement : application à la commande d'un système distribué de micromanipulation

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses