Thèse en cours

Apprentissage par renforcement comme contrôle optimal pour la dynamique des fluides : application aux écoulements cisaillés
FR  |  
EN
Auteur / Autrice : Rémy Hosseinkhan boucher
Direction : Anne Vilnat
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/12/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Equipe de recherche : DATAFLOT - Dynamique des Fluides et Modélisation augmentée
référent : Faculté des sciences d'Orsay

Résumé

FR  |  
EN

Les besoins environnementaux ravivent l'intérêt de la recherche dans de nombreux domaines de l'ingénierie. Un exemple probant est fourni par les émissions de dioxyde de carbone, largement considérées comme l'une des principales causes du réchauffement climatique. Cette urgence s'étend à de nombreuses applications, dont l'aéronautique, où il est reconnu que l'optimisation des écoulements aérodynamiques peut avoir un impact profond sur la réduction des émissions de polluants, l'atténuation du bruit acoustique ou le contrôle de conditions très complexes telles que la séparation. En principe, les stratégies de contrôle de l'écoulement permettent d'optimiser l'écoulement en temps réel, en tirant parti des mesures des capteurs et des modèles physiques ; en pratique, dans des cas réalistes, cette technique n'est utilisée que dans des cas numériques et expérimentaux limités. Relever ces défis en déployant des outils d'apprentissage automatique [13] et, plus particulièrement, l'apprentissage par renforcement (RL) [68] peut représenter un élément clé. Par définition, l'apprentissage par renforcement étudie comment utiliser les données passées pour améliorer la manipulation future d'un système dynamique [58]. Cette description s'applique de manière équivalente dans la théorie du contrôle standard, où l'objectif est d'optimiser les performances d'un système sur la base des mesures en combinaison avec des modèles antérieurs. En effet, les deux disciplines ont évolué en parallèle, conduisant au co-développement de différentes approches à des problèmes similaires [8, 41] ; les racines communes peuvent être trouvées dans la programmation dynamique (DP), un protocole d'optimisation non linéaire basé sur l'équation de Bellman [5]. La solution de l'équation de Bellman est la fonction de valeur, une fonction non linéaire, à partir de laquelle on peut déterminer la politique optimale. Dans la plupart des cas, l'équation de Bellman s'avère peu pratique sur le plan informatique lorsque des méthodes directes, basées sur un modèle, sont appliquées [41]. Cependant, les méthodes itératives peuvent être utilisées avec ou sans modèle préalable [68] : les algorithmes sans modèle sont compris dans le RL. Ces algorithmes sont itératifs, entièrement basés sur les données et reposent uniquement sur des mesures limitées ; la modélisation est remplacée par l'exploration : l'espace d'état du système est appris en utilisant les données passées extraites des mesures et des interactions du système ou de l'agent avec l'environnement. L'ensemble de toutes les actions que l'agent peut réaliser dans un environnement est appelé espace d'action. La politique de contrôle est déterminée à partir de l'exploration de l'espace état-action : dans la limite de la connaissance totale de cet espace, la politique résultante est optimale par la maximisation d'une fonction de récompense [8, 41]. L'absence de modèle permet de contourner certains inconvénients de la commande basée sur un modèle ; par exemple, les approximations basées sur des modèles d'ordre réduit du système physique pour répondre à des contraintes en temps réel peuvent perdre leur précision de manière critique lorsque la commande est appliquée, ce qui entraîne de mauvaises performances et un manque de robustesse. Un autre ingrédient est représenté par les réseaux de neurones artificiels (ANN), aujourd'hui utilisés de manière efficace pour l'apprentissage supervisé et non supervisé dans des secteurs très divers, allant de la neurobiologie à la physique ou aux sciences sociales [25]. La combinaison des ANN pour l'approximation de la politique et de la fonction de valeur, avec le RL a conduit au Deep Reinforcement Learning (DRL). D'un point de vue historique, l'application des ANN n'est pas nouvelle, puisqu'elle était déjà suggérée dans des travaux fondamentaux sur le sujet [8] ; les développements récents dans le domaine de l'apprentissage profond et les performances surhumaines obtenues par le DRL dans la résolution de jeux tels que le go et le shogi [65] ont renforcé la popularité de cette approche. Avec la grande disponibilité de paquets open-source, c'est aussi l'une des raisons pour lesquelles le DRL est souvent considéré 'seulement' comme l'un des principaux sous-domaines de l'apprentissage automatique (ML) et utilisé comme une boîte noire. Cette perspective limitée risque toutefois d'être plutôt simpliste, car l'apprentissage automatique est bien ancré dans la théorie du contrôle optimal et, de par ses caractéristiques, il pourrait jouer un rôle clé dans des défis technologiques tels que le développement de voitures sans conducteur ou l'apprentissage auto-supervisé. En ce sens, une application naïve de ces algorithmes en combinaison avec des expédients d'ingénierie a posteriori ne permet pas un déploiement complet des potentialités de la RL. Dans cette optique, l'objectif du projet est de relier la LR au contrôle de flux afin de relever les défis qui ont limité le succès des outils de contrôle standard dans les flux non linéaires et complexes. Nous pouvons détailler comme suit les trois principaux objectifs de la proposition : 1. Développer des stratégies robustes de contrôle de flux en utilisant RL, en intégrant dans ce cadre des techniques efficaces d'apprentissage/estimation, de physique et d'analyse. d'apprentissage/estimation, les contraintes physiques et les outils de la théorie du contrôle. 2. Tester les stratégies RL en les comparant au contrôle optimal dans des modèles simplifiés de complexité croissante de la mécanique des fluides. modèles simplifiés de complexité croissante d'intérêt pour la mécanique des fluides. 3. Démonstrations finales à l'aide de simulations numériques d'écoulements de cisaillement transitoires à Reynolds modéré.