Thèse en cours

Apprentissage incrémental de modèles d’action relationnels.

FR

Accès à la thèse

AttentionLa soutenance a eu lieu le 21/01/2013. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Christophe RODRIGUES BENTO
Direction : Céline Rouveirol
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 22/10/2007
Soutenance le 21/01/2013
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : Ecole doctorale galilée

Résumé

FR

Dans cette thèse, nous nous intéressons à l'apprentissage artificiel pour l'action. Nous nous situons à l'intersection de l'apprentissage par renforcement (AR) et de la programmation logique inductive (PLI). Nous étudions plus précisément l'apprentissage de modèles d'actions. Un modèle d'action décrit les conditions et effets des actions possibles dans un environnement. Il permet d'anticiper les conséquences des actions d'un agent et peut aussi être utilisé par un planificateur. Nous nous intéressons en particulier à une représentation relationnelle des environnements. Nous décrivons alors les états et les actions à l'aide d'objets et de relations entre les différents objets qui les composent. Nous présentons la méthode IRALe apprennant de façon incrémentale des modèles d'action relationnels. Nous commençons par supposer que les états sont entièrement observables et que les conséquences des actions sont déterministes. Nous apportons une preuve de convergence pour cette méthode. Ensuite, nous développons une approche d'exploration active qui essaye de focaliser l'expérience de l'agent sur des actions supposées non couvertes par le modèle. Enfin, nous généralisons l'approche en introduisant une perception de l'environnement bruitée afin de rendre plus réaliste notre cadre d'apprentissage. Pour chaque approche, nous illustrons empiriquement son intérêt sur plusieurs problèmes de planification. Les résultats obtenus montrent que le nombre d'interactions nécessaires avec les environnements est très faible comparé à la taille des espaces d'états considérés. De plus, l'apprentissage actif permet d'améliorer significativement ces résultats.