Sur le couplage de l'apprentissage par renforcement profond et de la mécanique des fluides numérique
Auteur / Autrice : | Hassan Ghraieb |
Direction : | Elie Hachem, Philippe Meliga |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques numériques, Calcul intensif et Données |
Date : | Soutenance le 24/06/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences fondamentales et appliquées (Nice ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de mise en forme des matériaux (Sophia Antipolis, Alpes-Maritimes) |
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....) | |
Jury : | Président / Présidente : Ramon Codina |
Examinateurs / Examinatrices : Elie Hachem, Philippe Meliga, Nissrine Akkari, Anca Belme, Jonathan Viquerat | |
Rapporteurs / Rapporteuses : Ramon Codina, Anil Bharath |
Résumé
Cette thèse évalue la pertinence des techniques d'apprentissage par renforcement profond (DRL) pour le contrôle optimal en mécaniques des fluides. L'apprentissage par renforcement (RL) est le processus par lequel un agent apprend par essai et erreur les actions à prendre de façon à optimiser une récompense quantitative au cours du temps. Dans un contexte d'apprentissage par renforcement profond (deep RL ou DRL), l'agent est un réseau de neurones profond imitant les circuits formés par les neurones du cerveau humain. Le couplage entre algorithmes DRL et les codes de mécanique des fluides numérique (CFD) à la pointe de l'état de l'art, ainsi que leur implémentation dans un contexte de calcul haute performance, constituent les nouveautés et l'objectif principal de la thèse. L'environnement CFD utilisé pour calculer la récompense fournie au DRL est basé sur la méthode des éléments finis stabilisés multi-échelles de type Variational Multiscale (VMS), dans laquelle la solution est décomposée a priori en une grande échelle résolue et une petite échelle modélisée au travers de termes sources proportionnels aux résidus des équations du problème grande échelle. En ce qui concerne les algorithmes DRL, deux approches différentes sont considérées. La première, dans laquelle l'agent interagit avec son environnement une fois par épisode dans le but d'apprendre le mapping d'un état d'entrée constant à une action optimale (single-step DRL), vise les problèmes de contrôle en boucle ouverte, dans lesquels une quantité est optimisée via des paramètres d'actuation pré-définis (par exemple, une vitesse d'entrée constante). La seconde, dans laquelle l'agent interagit plusieurs fois par épisode afin d'apprendre une relation état-action plus complexe (multi-step DRL), est plus pertinente pour les problèmes de contrôle en boucle fermée, où des mesures de l'écoulement sont utilisées afin d'ajuster en permanence les paramètres d'actuation. Plusieurs cas-tests en deux et trois dimensions (en régime d'écoulement laminaire et turbulent) sont présentés afin d'évaluer la pertinence, la précision et les performances de ces méthodes, en particulier pour les problèmes de réduction de traînée et de contrôle thermique. Les résultats obtenus soulignent le potentiel élevé de l'approche DRL-CFD devraient permettre d'accélérer le développement du DRL et son application à des problématiques concrètes d'intérêt industriel.