Thèse en cours

Commande optimale adaptative via apprentissage par renforcement appliquée à un bras manipulateur

FR  |  
EN
Auteur / Autrice : Amine Mebarki
Direction : Mohamed Zerrougui
Type : Projet de thèse
Discipline(s) : Automatique
Date : Inscription en doctorat le 02/10/2023
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : École Doctorale Mathématiques et Informatique de Marseille (Marseille)
Partenaire(s) de recherche : Laboratoire : LIS Laboratoire d'Informatique et Systèmes

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La théorie du contrôle optimal des systèmes dynamiques repose sur la minimisation d'un ensemble de fonctions de coût pour améliorer les performances souhaitées, elle nécessite une connaissance parfaite de la dynamique système. L'application de cette commande sur des systèmes complexes (ex : robotiques) est basée sur la simplification du modèle mathématique, ce qui impacte négativement les performances de la commande. Nous proposons dans cette thèse le développement de commandes adaptatives pilotées par les données et les appliquer dans le domaine de la robotique. Ainsi, l'objectif principal consiste à développer des lois de de commandes optimales adaptatives basée sur l'apprentissage par renforcement pour les systèmes complexes qui présentent des dynamiques non linéaires, incertaines ou sans modèles mathématiques suffisants. Pour ces classes de systèmes, nous souhaitons développer des modèles hybrides en combinant les représentations mathématiques existantes et celles à base de données. Afin d'adapter les méthodes d'apprentissage par renforcement aux systèmes étudiés, nous proposerons des méthodes de sélection des fonctions de récompense garantissant une meilleure performance de la commande et une rapide convergence des algorithmes d'apprentissage. Des validations des résultats obtenus par simulation et expérimentation sur le robot manipulateur à 7 degrés de liberté Franka Emika sont prévues pour montrer l'efficacité des méthodes qui seront proposées. Dans ce cadre, plusieurs cas d'applications seront considérés et cela sous différentes hypothèses de fonctionnement, telles que la commande optimale sous contrainte d'un environnement changeant, la génération et le suivi de trajectoires adaptatif dans l'objectif d'améliorer la précision du robot et garantir la sécurité du système et son entourage.