Thèse soutenue

Améliorer l'efficacité en données de Novelty Search avec des modèles ou initialisation d'archive

FR  |  
EN
Auteur / Autrice : Elias Hanna
Direction : Stéphane DoncieuxAlexandre Coninx
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 22/03/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Institut des systèmes intelligents et de robotique (Paris ; 2009-....)
Jury : Président / Présidente : Pascal Morin
Examinateurs / Examinatrices : Sao Mai Nguyen
Rapporteur / Rapporteuse : Alain Dutech, Cyril Fonlupt

Résumé

FR  |  
EN

Dans le contexte de la recherche de politiques pour les systèmes robotiques, l'efficacité en données est une priorité. Les algorithmes évolutionnaires ont été utilisés au cours des dix dernières années pour obtenir des résultats significatifs dans le domaine de la robotique, car leur approche darwiniste de l'optimisation leur permet de contourner les problèmes souvent rencontrés par les méthodes d'optimisation basées sur le gradient de la récompense, telles que l'apprentissage par renforcement. Néanmoins, ces méthodes restent très coûteuses en données et presque impossibles à transférer directement sur un système robotique réel. Cette thèse de doctorat s'intéresse à la résolution de ce problème d'efficacité en données, en particulier pour l'algorithme Novelty Search, un algorithme évolutionnaire basé sur la nouveauté. L'incorporation de modèles appris dans le processus d'optimisation a été une solution à l'efficacité en données pendant de nombreuses années, mais peu de travaux abordent cette question dans le cadre de la recherche de nouveauté. Trois axes de recherche dans ce cadre sont explorés dans ce manuscrit. Tout d'abord, l'impact du pré-entraînement du modèle appris avec des données recueillies à l'aide de processus aléatoires de corrélation temporelle variable est évalué. Il est démontré sur des algorithmes issus de l'état de l'art que l'impact est négligeable sur un algorithme évolutionnaire utilisant un modèle appris, mais qu'il est significatif sur un algorithme d'apprentissage par renforcement basé modèle avec des récompenses initiales jusqu'à dix fois plus grandes entre le meilleur et le pire processus aléatoire utilisé. Deuxièmement, une étude préliminaire est réalisée sur une nouvelle approche visant à orienter la population initiale de l'algorithme Novelty Search vers une population plus diversifiée sur le plan comportemental en utilisant des ensembles de modèles dynamiques aléatoires. Il est montré que cette approche réduit avec succès le nombre d'évaluations requises par la recherche de nouveauté pour couvrir l'environnement d'une base mobile à deux roues. Il est également démontré que cette approche échoue sur un environnement de locomotion plus complexe d'un robot hexapode, et que le manque de diversité capturé par les ensembles de modèles aléatoires utilisés en est la cause. Enfin, un nouvel algorithme évolutionnaire basé sur les modèles, appelé Model-Based Novelty Search, est proposé, dans le but de préserver les fortes capacités d'exploration de Novelty Search tout en réduisant le nombre d'évaluations nécessaires pour atteindre la même couverture de l'espace comportemental. Les résultats obtenus sur trois tâches robotiques montrent une réduction de l'utilisation de données 30 % à 75 % selon la tâche considérée tout en conservant la même couverture de l'espace comportemental, ce qui constitue une avancée significative vers un algorithme de recherche de nouveauté plus efficace en termes d'échantillons.