Méta-apprentissage par renforcement pour le contrôle adaptatif

Yesmina Jaafra

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Méta-apprentissage par renforcement pour le contrôle adaptatif

FR |

EN

Auteur / Autrice :	Yesmina Jaafra
Direction :	Aline Deruyver, Mohamed Sabeur Naceur
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 11/09/2020
Etablissement(s) :	Strasbourg en cotutelle avec Université de la Manouba (Tunisie)
Ecole(s) doctorale(s) :	École doctorale Mathématiques, sciences de l'information et de l'ingénieur (Strasbourg ; 1997-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie (Strasbourg ; 2013-....)
Jury :	Président / Présidente : Pierre Collet
	Examinateurs / Examinatrices : Aline Deruyver, Mohamed Sabeur Naceur, Pierre Collet, David Filliat, Slim Yacoub, Élisa Fromont, Lhassane Idoumghar
	Rapporteurs / Rapporteuses : David Filliat, Slim Yacoub

Mots clés

FR |

EN

Mots clés contrôlés

Calcul adaptatif

Réseaux neuronaux (informatique)

Conduite

Véhicules autonomes

Apprentissage profond

Mots clés libres

Apprentissage profond

Apprentissage par renforcement

Conduite autonome

Simulateur Carla

Méta-apprentissage

Résumé

FR |

EN

Avec l'avènement de l'apprentissage profond, l'intelligence artificielle a franchi un pas décisif vers l'automatisation des tâches de grande dimensionnalité. L'apprentissage par renforcement a été révolutionné grâce aux nouveaux concepts de représentation profonde. Toutefois, l'extension de l'application de ce paradigme vers la sphère du monde réel a engendré des nouveaux défis de généralisation et d'optimisation face à la non-stationnarité des tâches. Dans cette thèse, nous nous intéressons à l'évolution méthodologique récente de l'apprentissage automatique vers le méta-apprentissage afin de remédier aux limites de l'apprentissage profond. L'approche proposée est construite sur la base d'une formulation Markovienne évoluant graduellement selon 2 axes d'amélioration. Au niveau de la robustesse de l'apprentissage, nous intégrons dans l'expression du gradient de la politique la fonction avantage estimée par une version généralisée de l'apprentissage par différence temporelle. Concernant la capacité de généralisation, nous implémentons un méta-optimiseur de type gradient apprenant les évaluations de l'algorithme de base à travers les tâches. Le modèle généralisable obtenu a montré une adaptation rapide aux nouveaux contextes de conduite autonome en milieu urbain.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Méta-apprentissage par renforcement pour le contrôle adaptatif

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Méta-apprentissage par renforcement pour le contrôle adaptatif

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses