Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial

André Fabbri

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial

FR |

EN

Auteur / Autrice :	André Fabbri
Direction :	Salima Hassas, Frédéric Armetta, Eric Duchêne
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 22/10/2015
Etablissement(s) :	Lyon 1
Ecole(s) doctorale(s) :	École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche :	Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Systèmes Multi-Agents
Jury :	Président / Présidente : Marie-Pierre Gleizes
	Examinateurs / Examinatrices : Philippe Mathieu
	Rapporteurs / Rapporteuses : Alain Dutech, Tristan Cazenave, Rita Maria da Silva Julia

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage par renforcement (intelligence artificielle)

Logique combinatoire

Intelligence artificielle

Mots clés libres

Intelligence artificielle pour les jeux

Monte Carlo Tree Search

Apprentissage par renforcement

Jeux combinatoires

Computer-Go

Clobber Solitaire Impartial

Résumé

FR |

EN

Depuis son introduction pour le jeu de Go, Monte Carlo Tree Search (MCTS) a été appliqué avec succès à d'autres jeux et a ouvert la voie à une famille de nouvelles méthodes comme Mutilple-MCTS ou Nested Monte Carlo. MCTS évalue un ensemble de situations de jeu à partir de milliers de fins de parties générées aléatoirement. À mesure que les simulations sont produites, le programme oriente dynamiquement sa recherche vers les coups les plus prometteurs. En particulier, MCTS a suscité l'intérêt de la communauté car elle obtient de remarquables performances sans avoir pour autant recours à de nombreuses connaissances expertes a priori. Dans cette thèse, nous avons choisi d'aborder MCTS comme un système apprenant à part entière. Les simulations sont alors autant d'expériences vécues par le système et les résultats sont autant de renforcements. L'apprentissage du système résulte alors de la complexe interaction entre deux composantes : l'acquisition progressive de représentations et la mobilisation de celles-ci lors des futures simulations. Dans cette optique, nous proposons deux approches indépendantes agissant sur chacune de ces composantes. La première approche accumule des représentations complémentaires pour améliorer la vraisemblance des simulations. La deuxième approche concentre la recherche autour d'objectifs intermédiaires afin de renforcer la qualité des représentations acquises. Les méthodes proposées ont été appliquées aux jeu de Go et du Clobber solitaire impartial. La dynamique acquise par le système lors des expérimentations illustre la relation entre ces deux composantes-clés de l'apprentissage

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Dynamique d'apprentissage pour Monte Carlo Tree Search : applications aux jeux de Go et du Clobber solitaire impartial

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses