Unsupervised pretraining of state representations in a rewardless environment

Astrid Merckling

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Pré-entraînement non supervisé de représentations d'état dans un environnement sans récompense

FR |

EN

Auteur / Autrice :	Astrid Merckling
Direction :	Stéphane Doncieux, Nicolas Perrin-Gilbert, Alexandre Coninx
Type :	Thèse de doctorat
Discipline(s) :	Robotique
Date :	Soutenance le 22/09/2021
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury :	Président / Présidente : Catherine Achard
	Examinateurs / Examinatrices : Alban Laflaquière
	Rapporteur / Rapporteuse : David Filliat, Alain Dutech

Mots clés

FR |

EN

Mots clés contrôlés

Algorithmes

Prise de décision -- Modèles mathématiques

Apprentissage non supervisé (intelligence artificielle)

Apprentissage par renforcement (intelligence artificielle)

Mots clés libres

Apprentissage de représentation d'état

Pré-entraînement

Exploration

Apprentissage non supervisé

Apprentissage par renforcement profond

Robotique

Résumé

FR |

EN

Cette thèse vise à étendre les capacités de l'apprentissage de représentation d'état (state representation learning, SRL) afin d'aider la mise à l'échelle des algorithmes d'apprentissage par renforcement profond (deep reinforcement learning, DRL) aux tâches de contrôle continu avec des observations sensorielles à haute dimension (en particulier des images). Le SRL permet d'améliorer les performances des algorithmes de DRL en leur transmettant de meilleures entrées que celles apprises à partir de zéro avec des stratégies de bout-en-bout. Plus précisément, cette thèse aborde le problème de l'estimation d'état à la manière d'un pré-entraînement profond non supervisé de représentations d'état sans récompense. Ces représentations doivent vérifier certaines propriétés pour permettre l'application correcte du bootstrapping et d'autres mécanismes de prises de décisions communs à l'apprentissage supervisé, comme être de faible dimension et garantir la cohérence locale et la topologie (ou connectivité) de l'environnement, ce que nous chercherons à réaliser à travers les modèles pré-entraînés avec les deux algorithmes de SRL proposés dans cette thèse.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Pré-entraînement non supervisé de représentations d'état dans un environnement sans récompense

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Pré-entraînement non supervisé de représentations d'état dans un environnement sans récompense

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses