Méta-apprentissage par renforcement pour le contrôle adaptatif
Auteur / Autrice : | Yesmina Jaafra |
Direction : | Aline Deruyver, Mohamed Sabeur Naceur |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 11/09/2020 |
Etablissement(s) : | Strasbourg en cotutelle avec Université de la Manouba (Tunisie) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences de l'information et de l'ingénieur (Strasbourg ; 1997-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (Strasbourg ; 2013-....) |
Jury : | Président / Présidente : Pierre Collet |
Examinateurs / Examinatrices : Aline Deruyver, Mohamed Sabeur Naceur, Pierre Collet, David Filliat, Slim Yacoub, Élisa Fromont, Lhassane Idoumghar | |
Rapporteurs / Rapporteuses : David Filliat, Slim Yacoub |
Mots clés
Résumé
Avec l'avènement de l'apprentissage profond, l'intelligence artificielle a franchi un pas décisif vers l'automatisation des tâches de grande dimensionnalité. L'apprentissage par renforcement a été révolutionné grâce aux nouveaux concepts de représentation profonde. Toutefois, l'extension de l'application de ce paradigme vers la sphère du monde réel a engendré des nouveaux défis de généralisation et d'optimisation face à la non-stationnarité des tâches. Dans cette thèse, nous nous intéressons à l'évolution méthodologique récente de l'apprentissage automatique vers le méta-apprentissage afin de remédier aux limites de l'apprentissage profond. L'approche proposée est construite sur la base d'une formulation Markovienne évoluant graduellement selon 2 axes d'amélioration. Au niveau de la robustesse de l'apprentissage, nous intégrons dans l'expression du gradient de la politique la fonction avantage estimée par une version généralisée de l'apprentissage par différence temporelle. Concernant la capacité de généralisation, nous implémentons un méta-optimiseur de type gradient apprenant les évaluations de l'algorithme de base à travers les tâches. Le modèle généralisable obtenu a montré une adaptation rapide aux nouveaux contextes de conduite autonome en milieu urbain.