Thèse soutenue

Analyse expérimentale et théorique des algorithmes d'apprentissage par renforcement

FR  |  
EN
Auteur / Autrice : David Brellmann
Direction : Goran FrehseDavid Filliat
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Informatique
Date : Soutenance le 01/07/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Établissement opérateur d'inscription : École nationale supérieure de techniques avancées (Palaiseau ; 1970 -....)
Laboratoire : École nationale supérieure de techniques avancées (Palaiseau). Unité d'Informatique et d'Ingénierie des Systèmes
Jury : Président / Présidente : Rémi Munos
Examinateurs / Examinatrices : Yaqi Duan
Rapporteur / Rapporteuse : Marcello Restelli, Odalric-Ambrym Maillard

Résumé

FR  |  
EN

En apprentissage par renforcement (RL), un agent apprend comment agir dans un environnement inconnu de façon à maximiser sa récompense sur le long terme.Ces dernières années, l'utilisation de réseaux de neurones artificiels a conduit à de nombreuses avancées, notamment en termes de scalabilité.Cependant, de nombreuses lacunes subsistent dans notre compréhension de la meilleure manière d'employer les réseaux de neurones en RL.Dans cette thèse, nous proposons d'améliorer l'utilisation des réseaux de neurones en RL de deux manières, présentées dans deux parties distinctes.La première partie présente une analyse théorique de l'impact du nombre de paramètres sur la performance d'apprentissage.La seconde partie propose un prétraitement simple des données, basé sur la série de Fourier, qui améliore empiriquement les performances des réseaux de neurones de plusieurs façons.Dans la première partie de cette thèse, nous étudions l'influence du nombre de paramètres sur la performance.Alors que dans l'apprentissage supervisé, le régime de surparamétrisation et ses avantages sont bien compris, la situation en RL est beaucoup moins claire.Nous présentons donc une analyse théorique de l'influence du nombre de paramètres et de la régularisation L2 sur la performance.Nous identifions le rapport entre le nombre de paramètres et le nombre d'états visités comme un facteur crucial et définissons la surparamétrisation comme le régime où ce rapport est supérieur à un.De plus, nous observons un phénomène de double descente, caractérisé par une chute soudaine de performance au-delà d'un rapport paramètres/états visités de un.Notre analyse est basée sur l'algorithme de Least-Squares Temporal Difference learning (LSTD) régularisé avec des caractéristiques aléatoires dans un régime asymptotique, où le nombre de paramètres et d'états tendent vers l'infini tout en maintenant un rapport constant.Nous dérivons des limites déterministes de l'erreur quadratique moyenne de Bellman (MSBE) basée sur des échantillons collectés, de la vraie MSBE, et de l'erreur quadratique moyenne de la fonction de valeur (MSVE) qui comportent des termes de correction responsables du phénomène de double descente.Nous démontrons que l'influence des termes de correction diminue avec l'augmentation de la régularisation L2, ou avec le nombre d'états non visités.Dans la seconde partie de cette thèse, nous proposons l'étude d'un prétraitement des données basé sur la série de Fourier.En effet, outre le nombre de paramètres, le nombre d'optimisations réalisé en pratique reste souvent limité.Par conséquent, les réseaux de neurones tendent souvent à se comporter comme des modèles sous-paramétrisés régularisés par un arrêt prématuré.Cette forme de régularisation induit notamment un biais spectral, puisque l'apprentissage des composantes à haute fréquence de la fonction cible requiert exponentiellement plus d'itérations dans la descente de gradient stochastique que pour les composantes à basse fréquence.Pour pallier à ce problème, nous proposons un prétraitement des données basé sur la série de Fourier afin d'améliorer l'apprentissage des composantes à haute fréquence et surmonter le biais spectral en RL.Nous présentons des expériences indiquant que ce prétraitement peut conduire à des améliorations significatives des performances, en termes de récompenses obtenues et de données utilisées.De plus, nous observons que ce prétraitement favorise une plus grande robustesse face aux hyperparamètres, conduit à l'élaboration de politiques plus régulières, et bénéficie au processus d'entraînement en réduisant l'interférence d'apprentissage, en encourageant l'apprentissage de caractéristiques distinctes et sparses (ou creuses), et en augmentant l'expressivité des caractéristiques apprises.