Machine Learning, assimilation de données et systèmes dynamiques
Auteur / Autrice : | Quentin Malartic |
Direction : | Marc Bocquet, Fabio D'Andrea |
Type : | Thèse de doctorat |
Discipline(s) : | Physique |
Date : | Soutenance le 13/05/2024 |
Etablissement(s) : | Marne-la-vallée, ENPC |
Ecole(s) doctorale(s) : | École doctorale Sciences, Ingénierie et Environnement (Champs-sur-Marne, Seine-et-Marne ; 2010-....) |
Partenaire(s) de recherche : | Laboratoire : Centre d'enseignement et de recherche en mathématiques et calcul scientifique (Champs-sur-Marne, Seine-et-Marne) |
Jury : | Président / Présidente : Julien Le Sommer |
Examinateurs / Examinatrices : Marc Bocquet, Fabio D'Andrea, Tijana Janjic-Pfander, Ronan Fablet, Rossella Arcucci, Julien Brajard | |
Rapporteurs / Rapporteuses : Tijana Janjic-Pfander |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
La dynamique chaotique et les observations creuses et bruitées des systèmes géophysiques, en particulier dans les domaines de la météorologie, de la science du climat et de l'océanographie, exigent des méthodologies sophistiquées pour une estimation précise de l'état ou des paramètres. Cette thèse explore, à la fois théoriquement et expérimentalement, la synergie entre les techniques traditionnelles d'assimilation de données et l'essor récent de l'apprentissage automatique. Je me concentre spécifiquement sur l'estimation conjointe des variables d'état et des paramètres, et sur l'entraînement de modèles ML destinés à être utilisés ultérieurement dans des configurations d'assimilation de données. Ces modèles d'apprentissage automatique, qui ne sont pas entièrement physiques et, dans certains cas, entièrement statistiques, sont appelés modèles de substitution. La pertinence d'un tel modèle peut résider soit dans sa précision améliorée, soit dans son efficacité de calcul, par exemple s'il peut atteindre une performance similaire à un coût de calcul réduit. Dans la recherche d'estimations et de prévisions plus précises, nécessitant de meilleurs modèles de substitution, ainsi que des modèles de substitution moins coûteux en termes de calcul, le développement de méthodologies combinant apprentissage automatique et assimilation de données devient crucial. La flexibilité des techniques d'apprentissage automatique, allant des méthodes statistiques conventionnelles aux architectures avancées d'apprentissage profond, en synergie avec les méthodes bien établies d'assimilation de données, forment une boîte à outils puissante pour améliorer de manière significative la qualité de prédictions dans le contexte de données d'observation creuses et bruitées d'un système dynamique chaotique. Les systèmes géophysiques typiques tels que l'océan et l'atmosphère sont régis par des équations locales, où l'évolution temporelle du système en un point donné de l'espace ne dépend que de son état voisin. Les méthodes présentées, tant pour l'assimilation de donnée que pour l'apprentissage automatique, ne prennent pas seulement en compte cette particularité, mais sont conçues autour d'elle, dans le but de produire de meilleurs modèles, de faire des prédictions et des estimations plus précises, ainsi que d'en tirer un avantage en termes de complexité algorithmique. D'une part, la combinaison de l'assimilation de donnée et de l'apprentissage automatique sera étudiée dans le contexte de l'estimation conjointe, où le modèle statistique et l'état du système dynamique sont estimés et mis à jour au fur et à mesure de l'acquisition de nouvelles données d'observation. Les algorithmes développés seront largement testés dans des configurations expérimentales fictives. Néanmoins, les méthodes et les dispositifs expérimentaux mis au point seront axés sur les applications de prévision météorologique numérique et seront conçus de manière à être applicables dans ce contexte et à cette échelle. D'autre part, l'entraînement des modèles statistiques sur des données d'observation passées sera étudié, et leur performance sera évaluée à la fois en termes de prévisions futures, et dans le contexte d'expériences d'assimilation de données classiques. Dans ce cas, l'expérimentation sera faite en utilisant un modèle Quasi Géostrophique, suivant l'implémentation de Marshall et Molteni (1993), modèle représentant la dynamique atmosphérique à grande échelle, étant particulièrement pertinent dans le contexte de l'hiver boréal dans les latitudes moyennes D'Andrea et Vautard (2001).