Thèse soutenue

Optimisation et apprentissage du contrôle macroscopique de la forme des systèmes de basse dimension stochastiques et déterministes

FR  |  
EN
Auteur / Autrice : Francesco Boccardo
Direction : Olivier Pierre-Louis
Type : Thèse de doctorat
Discipline(s) : Physique
Date : Soutenance le 31/03/2022
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale de Physique et Astrophysique de Lyon (Lyon ; 1991-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
Laboratoire : Institut Lumière Matière
Jury : Président / Présidente : Catherine Barentin
Examinateurs / Examinatrices : Olivier Pierre-Louis, Nicolas Combe, Médéric Argentina, Laëtitia Matignon, Francesco Montalenti
Rapporteur / Rapporteuse : Nicolas Combe, Médéric Argentina

Résumé

FR  |  
EN

Cette thèse explore le contrôle de la morphologie de systèmes physiques étendus mettant en jeu une dynamique stochastique ou nonlinéaire. Plus précisément, nous nous sommes intéressés au problème d'atteinte en temps fini une morphologie cible aussi arbitraire que possible grâce à des méthodes de contrôle ''basées sur un modèle'' ou ''sans modèle''. Dans l'approche basée sur les modèles, la connaissance complète des lois qui régissent le système est exploitée pour calculer une stratégie de contrôle optimale. Si cette connaissance n'est pas disponible, on peut apprendre une stratégie de contrôle par l’approche sans modèle en interagissant avec le système dynamique lui-même et en ''renforçant'' les actions qui maximisent un certain signal de récompense. Nous avons appliqué le contrôle basé sur un modèle au cas de petits îlots bidimensionnels de quelques particules sous l'effet d'un champ macroscopique extérieur, tel qu’un champ électrique ou un gradient de température, qui joue le rôle de paramètre de contrôle. Ce modèle décrit des amas mono-couche d’atomes, de nanoparticules, ou de colloïdes. Nous avons considéré le cas d’une dynamique régie par la diffusion stochastique des particules le long de la périphérie de l’îlot, qui conserve donc le nombre de particules pendant la dynamique. L’atteinte d’une forme cible pour l’îlot peut être vue comme un problème de premier passage dans l’espace des configurations, et le choix du champ peut être étudié dans le cadre des processus de décision Markoviens. Le nombre fini de configurations nous permet d'appliquer des algorithmes tabulaires (qui listent l’ensemble des états du système dans un tableau). Nous avons également dérivé quelques résultats analytiques à l’aide d’un développement à haute température. En l’absence de champ externe, nous avons montré que les formes compactes suffisamment grandes présentent une température optimale à laquelle elles sont atteintes en un temps minimum. En présence de champ, nous avons utilisé la méthode de ''programmation dynamique'' pour résoudre le processus de décision Markovien et trouver une stratégie optimale pour atteindre les formes cibles dans un temps minimal. Cette stratégie entraîne un gain de temps qui croît lorsqu’on augmente la taille des îlots ou que l’on diminue la température. Par ailleurs, la stratégie optimale n'est pas unique, et sa dégénérescence est principalement liée aux symétries du système. De plus, la stratégie optimale présente un ensemble discret de transitions lorsque la température varie. Quand la taille du cluster augmente, une densité continue de transitions émerge. Avec le contrôle sans modèle, nous avons modélisé une situation qui mime un dispositif expérimental, où un contrôleur automatisé apprend à manipuler un petit îlot. Nous avons montré que les méthodes d'apprentissage par renforcement de type Monte Carlo et Q-learning permettent en général d'atteindre des performances de contrôle proches des performances optimales calculées par programmation dynamique, sauf à haute température où les fluctuations sont importantes et l’influence du champ extérieur est faible. Enfin, nous avons étudié le contrôle sans modèle de la morphologie de systèmes déterministes. Le contrôle est obtenu en ajustant un paramètre global qui gouverne la stabilité du système, tel que l’écart de température par rapport au point critique dans un système subissant une transition de phase. Dans le cadre d'un modèle unidimensionnel basé sur une généralisation de l'équation d'Allen-Cahn (ou Ginzburg-Landau dépendante du temps), nous avons pu contrôler le nombre de domaines apparaissant dans le système en utilisant des techniques d'approximation basées sur des réseaux de neurones (Deep Q-learning). Des résultats préliminaires aussi ont permis de classifier les forme de domaines subissant une instabilité de digitation obtenues par un modèle de champ de phase bidimensionnel, un résultat qui marque un premier pas vers le contrôle morphologique de ces systèmes.