Thèse soutenue

Réseaux récurrents et apprentissage par renforcement : approches dynamiques

FR  |  
EN
Auteur / Autrice : Corentin Tallec
Direction : Yann Ollivier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/10/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de recherche en informatique (Orsay, Essonne ; 1998-2020)
établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Jury : Président / Présidente : Anne Vilnat
Examinateurs / Examinatrices : Joan Bruna, Pascal Vincent, Francis Bach, Jean-Philippe Vert
Rapporteurs / Rapporteuses : Joan Bruna, Pascal Vincent

Résumé

FR  |  
EN

D'un agent intelligent plongé dans le monde, nous attendons à la fois qu'ilcomprenne, et interagisse avec son environnement. La compréhension du mondeenvironnant requiert typiquement l'assimilation de séquences de stimulationssensorielles diverses. Interagir avec l'environnement requiert d'être capabled'adapter son comportement dans le but d'atteindre un objectif fixé, ou de maximiser une notion de récompense. Cette vision bipartitede l'interaction agent-environnement motive les deux parties de cette thèse :les réseaux de neurone récurrents sont des outils puissants pour traiterdes signaux multimodaux, comme ceux résultants de l'interaction d'un agentavec son environnement, et l'apprentissage par renforcement et le domaine privilégiépour orienter le comportement d'un agent en direction d'un but.Cette thèse a pour but d'apporter des contributions théoriques et pratiques dans ces deux champs.Dans le domaine des réseaux récurrents, les contributions de cette thèse sont doubles :nous introduisons deux nouveaux algorithmes d'apprentissage de réseauxrécurrents en ligne, théoriquement fondés, et passant à l'échelle. Parailleurs, nous approfondissons les connaissances sur les réseaux récurrentsà portes, en analysant leurs propriétés d'invariance. Dans le domaine del'apprentissage par renforcement, notre contribution principale est de proposerune méthode pour robustifier les algorithmes existant par rapport à ladiscrétisation temporelle. Toutes ces contributions sont motivéesthéoriquement, et soutenues par des éléments expérimentaux.