Apprentissage incrémental des modèles d'action relationnels
Auteur / Autrice : | Christophe Rodrigues |
Direction : | Céline Rouveirol, Pierre Gérard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2013 |
Etablissement(s) : | Paris 13 |
Ecole(s) doctorale(s) : | École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....) |
Jury : | Examinateurs / Examinatrices : Amal El Fallah Seghrouchni, Stuart Russel, Yann Chevaleyre |
Rapporteur / Rapporteuse : Christel Vrain, Bruno Zanuttini |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Dans cette thèse, nous nous intéressons à l'apprentissage artificiel pour l'action. Nous nous situons à l'intersection de l'apprentissage par renforcement (AR) et de la programmation logique inductive (PLI). Nous étudions plus précisément l'apprentissage de modèles d'actions. Un modèle d'action décrit les conditions et effets des actions possibles dans un environnement. Il permet d'anticiper les conséquences des actions d'un agent et peut aussi être utilisé par un planificateur. Nous nous intéressons en particulier à une représentation relationnelle des environnements. Nous décrivons alors les états et les actions à l'aide d'objets et de relations entre les différents objets qui les composent. Nous présentons la méthode IRALe apprennant de façon incrémentale des modèles d'action relationnels. Nous commençons par supposer que les états sont entièrement observables et que les conséquences des actions sont déterministes. Nous apportons une preuve de convergence pour cette méthode. Ensuite, nous développons une approche d'exploration active qui essaye de focaliser l'expérience de l'agent sur des actions supposées non couvertes par le modèle. Enfin, nous généralisons l'approche en introduisant une perception de l'environnement bruitée afin de rendre plus réaliste notre cadre d'apprentissage. Pour chaque approche, nous illustrons empiriquement son intérêt sur plusieurs problèmes de planification. Les résultats obtenus montrent que le nombre d'interactions nécessaires avec les environnements est très faible comparé à la taille des espaces d'états considérés. De plus, l'apprentissage actif permet d'améliorer significativement ces résultats.