Thèse en cours

Synergies dans la recherche évolutionnaire de politiques connexionnistes

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 22/04/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Paul Templier
Direction : Emmanuel RachelsonDennis Wilson
Type : Projet de thèse
Discipline(s) : Informatique et Télécommunications
Date : Inscription en doctorat le
Soutenance le 22/04/2024
Etablissement(s) : Toulouse, ISAE
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications
Partenaire(s) de recherche : Laboratoire : ISAE-ONERA MOIS MOdélisation et Ingénierie des Systèmes
Jury : Président / Présidente : Daniel Delahaye
Examinateurs / Examinatrices : Emmanuel Rachelson, Dennis Wilson, Nikolaus Hansen, Olivier Sigaud, Gabriela Ochoa
Rapporteurs / Rapporteuses : Nikolaus Hansen, Olivier Sigaud

Résumé

FR  |  
EN

Former un agent pour des tâches complexes comme conduire une voiture, maîtriser un jeu vidéo ou contrôler le plasma dans un réacteur à fusion nucléaire pose un défi important en l'absence d'un guide expert. Dans de tels scénarios, imiter le processus d'évolution du monde naturel, qui a affiné les capacités de résolution de problèmes des cerveaux animaux, offre une approche prometteuse. La Recherche Évolutionnaire de Politiques Connexionnistes (REPC) s'inspire de ce concept. Elle crée une population diversifiée d'agents, ou "politiques", représentés par des réseaux de neurones artificiels, permettant au système d'évoluer en sélectionnant et en mutant sélectivement les individus performants. Cette thèse explore les composants clés de la REPC et leurs interactions, en se concentrant sur les Stratégies Evolutionnaires (ES), une méthode d'optimisation stochastique basée sur une distribution. Nous présentons trois axes de recherche pour tirer parti des synergies entre ES et recherche de politiques dans le développement de nouvelles méthodes d'apprentissage. Le premier problème abordé est lié à l'incertitude dans l'évaluation des solutions, où le score d'une politique peut être affecté par du bruit ou un environnement stochastique. Pour propager l'incertitude depuis le score jusqu'à la mise à jour de la distribution de l'ES, nous proposons une méthode d'estimation de la dispersion par échantillonnage Monte-Carlo (DEMONS) qui identifie la solution ayant le plus grand impact et nécessitant plus d'échantillons pour être évaluée avec précision. Ce nouveau schéma d'évaluation tire parti de la structure de l'étape de mise à jour ES pour mieux identifier les solutions sensibles qui nécessitent plus d'attention. Notre second axe de recherche concerne l'exploitation de la structure des réseaux de neurones artificiels pour améliorer leur représentation en tant que génomes pour l'optimisation. Nous introduisons l'Encodage Géométrique pour la Neuroévolution (GENE) qui encode l'information dans les neurones, réduisant leur dimension pour rendre l'optimisation moins coûteuse tout en façonnant l'espace de recherche pour faire émerger naturellement de meilleures architectures. En utilisant une approche de méta-évolution, nous optimisons ensuite cet encodage pour obtenir une représentation des réseaux qui améliore les performances tout en généralisant sur de nouveaux problèmes. Enfin, nous explorons deux domaines adjacents, l'Apprentissage par Renforcement (RL) et la Qualité-Diversité (QD), qui utilisent des informations supplémentaires provenant des évaluations pour guider la recherche. Les transitions d'états rencontrées par les agents peuvent être utilisées par du RL pour entraîner une politique, l'acteur, qui est ensuite injecté dans la population. Cependant, nous pouvons montrer que la différence entre les objectifs de l'ES et du RL font que les génomes de l'acteur et de la population divergent, ce qui mène à une rupture de l'optimisation de l'ES. Nous introduisons la Régularisation de la Dérive Génétique, qui contraint l'acteur RL à rester génétiquement proche de la distribution ES, améliorant ainsi leurs performances QD définit des descripteurs de comportement pour chaque solution, qui y sont utilisés pour créer un répertoire de politiques diverses. Nous montrons que ces descripteurs peuvent également être inclus dans le processus ES pour aider à trouver la meilleure solution. Nous introduisons le cadre de la Qualité avec Juste Assez de Diversité (JEDi), qui apprend le lien entre comportement et scores pour se concentrer sur les solutions prometteuses. JEDi utilise les comportements pour introduire plus de diversité dans la recherche, résolvant efficacement les tâches d'exploration difficiles, et pour trouver des étapes intermédiaires qui améliorent la recherche.