Apprentissage par renforcement et transfert de la simulation au réel pour la commande adaptative d'un AUV
Résumé
Les pilotes automatiques pour systèmes sans pilote sont généralement conçus sur la base des retours fournis par les capteurs de vitesse et d'orientation. Dans le cas des systèmes de pilotage automatique pour véhicules sous-marins autonomes (AUV), l'objectif principal de la conception est de compenser les forces perturbatrices induites par les vagues et le courant agissant sur leur corps. Les pilotes automatiques AUV existants ne sont cependant capables de compenser que les composantes basse fréquence des perturbations induites par la mer. Il semble naturel de supposer que les performances de l'AUV pourraient être améliorées en prenant en compte la nature des perturbations dans la conception du pilote automatique. Le contrôle adaptatif fournit ce qui semble être un cadre idéal à cette fin. L'objectif de cette technique est d'ajuster automatiquement les paramètres de contrôle face à des processus inconnus ou variables dans le temps, de manière à atteindre le seuil de performance souhaité. Développés à la fin des années 1950, les cadres de contrôle adaptatifs ont été considérablement étendus et utilisés dans divers domaines [...] et les contrôleurs adaptatifs ont commencé à être largement adoptés dans l’industrie au début des années 1980. Il était alors établi que les conceptions robustes avec des paramètres fixes étaient trop limitées pour gérer des régimes complexes. L'étude des contrôleurs adaptatifs pour les manœuvres des AUV est associée à divers défis, et cette thèse s'est concentrée sur les perturbations externes parmi lesquelles : - Dynamique inconnue : l'incertitude associée à la description précise des états des vagues ou des courants est élevée. Ceci, combiné à sa nature dynamique, empêche les méthodes de contrôle par rétroaction linéaire d'atteindre des performances optimales de l'installation. Cela devient plus critique en présence de changements dans les conditions météorologiques qui imposent un facteur multiplicatif dans la composante des forces induites. La période de perturbation variera également avec la vitesse du véhicule et son orientation par rapport aux vagues ; - Non-linéarité : la réponse du contrôleur à certains points de fonctionnement doit être trop conservatrice pour satisfaire aux spécifications à d'autres points de fonctionnement. Ceci est difficile à réaliser pour des paramètres fixes obtenus par linéarisation locale, qui n’englobent pas la totalité de l’enveloppe du régime. Dans cette thèse, nous avons considéré le cas où les AUV ont une observabilité limitée du processus et donc les incertitudes susmentionnées ne sont pas mesurées par le système. Une classe de méthodes de contrôle adaptatif, connues sous le nom de contrôleurs adaptatifs basés sur l'apprentissage, a été développée pour remédier à certaines de ces limitations. Cette famille de solutions utilise des méthodes d'optimisation sans modèle capables de compenser la partie inconnue d'un processus tout en maintenant un contrôle optimal de sa partie connue à l'aide de structures de contrôle traditionnelles basées sur des modèles. Parmi les différentes méthodes sans modèle, l’apprentissage par renforcement profond est actuellement en tête. Ils exploitent des outils statistiques puissants qui donnent aux systèmes de contrôle la capacité d’apprendre et de s’améliorer automatiquement à partir de l’expérience sans qu’on leur indique explicitement comment le faire. L'objectif de cette thèse était de formaliser un nouveau contrôle adaptatif basé sur l'apprentissage utilisant l'apprentissage par renforcement profond et le contrôle adaptatif de placement de pôles. De plus, nous avons proposé un nouveau mécanisme de relecture d’expérience qui prend en compte les caractéristiques du mécanisme de relecture biologique. Les méthodes ont été validées en simulation et en situation réelle, démontrant les bénéfices de combiner les deux théories plutôt que de les utiliser séparément.