Représentations pour la généralisation en apprentissage par renforcement
Auteur / Autrice : | David Bertoin |
Direction : | Emmanuel Rachelson, Sébastien Gerchinovitz |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et Applications |
Date : | Soutenance le 13/02/2023 |
Etablissement(s) : | Toulouse, ISAE |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, informatique et télécommunications (Toulouse) |
Partenaire(s) de recherche : | Equipe de recherche : Équipe d'accueil doctoral Modélisation et ingénierie des systèmes (Toulouse, Haute-Garonne) |
Laboratoire : Institut supérieur de l'aéronautique et de l'espace (Toulouse, Haute-Garonne). Département d’ingénierie des systèmes complexes | |
Jury : | Président / Présidente : Matthieu Geist |
Examinateurs / Examinatrices : Emmanuel Rachelson, Sébastien Gerchinovitz, Olivier Pietquin, Liam Paull, Vincent François-Lavet, Amy Zhang, Thomas Oberlin | |
Rapporteurs / Rapporteuses : Olivier Pietquin, Liam Paull |
Résumé
Cette thèse aborde le problème d'apprentissage de politiques de contrôle basées sur des images dans des environnements simulés. Malgré leur capacité à apprendre de telles politiques à partir d'interactions uniquement, les agents d'apprentissage par renforcement profond ont tendance à mémoriser des trajectoires plutôt que de découvrir des représentations d'état conduisant à une capacité à généraliser à de nouvelles situations.Ce problème de généralisation empêche l'adoption de l'apprentissage par renforcement dans le monde réel. Dans cette thèse, nous étudions plusieurs aspects du problème de généralisation à travers le prisme des représentations qu'un agent peut apprendre de son environnement. Tout d'abord, nous proposons une méthode pour augmenter la diversité des représentations dans l'espace latent d'une politique issue d'un réseau de neurones afin de promouvoir la robustesse des agents aux corrélations fallacieuses entre des éléments visuels et les récompenses. Dans un second temps, nous considérons la généralisation comme une robustesse à des éléments visuels distracteurs non observés durant l'apprentissage tels que des arrière-plans. Nous présentons une méthode basée sur l'interprétabilité des réseaux de neurones pour découvrir des représentations encodant des informations cruciales tout étant invariantes aux distractions visuelles. Enfin, nous considérons la généralisation à des situations contenant des informations sémantiques similaires mais représentées différemment dans des domaines distincts. Nous introduisons une méthode pour apprendre des représentations désenchevétrées, permettant la séparation entre l'information sémantique utile, commune entre les domaines et l'information contextuelle complémentaire. Ces contributions constituent une étape vers l'apprentissage de représentations permettant de réduire l'écart de généralisation en apprentissage par renforcement.