Thèse soutenue

FR  |  
EN
Auteur / Autrice : Sylvain Gelly
Direction : Michèle SebagNicolas Bredèche
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2007
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Le domaine de l'Apprentissage par Renforcement (AR) se trouve à l'interface entre la théorie du contrôle, l'apprentissage supervisé et non-supervisé, l'optimisation et les sciences cognitives, et est un domaine très actif de par ses applications et les problèmes non résolus. Cette thèse apporte quelques contributions dans ce domaine, principalement sur trois axes. Le 1er axe correspond à la modélisation de l'environnement, i. E. à l'apprentissage de la fonction de transition entre deux pas de temps. L'apprentissage et l'utilisation de ce modèle se fait efficacement dans les approches factorisées. Les Réseaux Bayesiens sont un moyen de représenter ce type de modèle, et dans ce domaine le travail présenté propose un nouveau critère d'apprentissage, à la fois pour le paramétrique (probabilités conditionnelles) et non-paramétrique (structure). Le 2ème axe est une étude du cas de l'AR en continu (espace d'état et d'action), à partir de l'algorithme de résolution par programmation dynamique. Cette analyse s'attaque à trois étapes fondamentales de cet algorithme: l'optimisation (choix de l'action à partir de la fonction de valeurs (FV)), l'apprentissage supervisé (regression) de la FV et le choix des exemples sur lesquels apprendre (apprentissage actif). Le 3ème axe de contribution correspond au domaine applicatif du jeu de Go, qui est un cas discret et de grande dimension qui reste un grand challenge pour les algorithmes d'AR. Dans ce domaine, les algorithmes utilisés et améliorés ont permis au programme résultant, MoGo de gagner de nombreuses compétitions internationales et devenant par exemple le premier programme jouant à un niveau dan amateur sur plateau 9x9.