Apprentissage statistique pour les géosciences : méthodes pour la génération d'extrêmes et l'assimilation de données
Auteur / Autrice : | Nicolas Lafon |
Direction : | Philippe Naveau, Ronan Fablet |
Type : | Thèse de doctorat |
Discipline(s) : | Géosciences |
Date : | Soutenance le 15/02/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences de l'environnement d'Île-de-France (Paris ; 1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des sciences du climat et de l'environnement (Gif-sur-Yvette, Essonne ; 1998-....) |
Référent : Université de Versailles-Saint-Quentin-en-Yvelines (1991-....) | |
graduate school : Université Paris-Saclay. Graduate School Géosciences, climat, environnement et planètes (2020-....) | |
Jury : | Président / Présidente : Gwladys Toulemonde |
Examinateurs / Examinatrices : Marc Bocquet, Raphaël Huser, Debbie Dupuis, Marco Avella-Medina, Freddy Bouchet | |
Rapporteur / Rapporteuse : Marc Bocquet, Raphaël Huser |
Mots clés
Résumé
Le domaine des géosciences vise à comprendre de manière exhaustive le système terrestre. Il intervient dans la compréhension de problématiques majeures, notamment l'impact du changement climatique ou la gestion des risques liés à des événements extrêmes. Les géosciences bénéficient considérablement de la massification de données à grande échelle, ce qui les rend propices à l'utilisation d'algorithmes de Machine Learning (ML). Du fait de ses spécificités, l'analyse des données géoscientifiques nécessite des formulations et des méthodologies ML innovantes. Le travail effectué dans cette thèse apporte de nouveaux outils basés sur le ML adaptés aux défis des géosciences, avec un potentiel d'applications plus larges au-delà du domaine des géosciences.Dans la première partie de cette thèse, nous proposons une approche ML pour estimer la distribution de variables spatio-temporelles dynamiques à partir d'observations bruitées et irrégulières. En effet, nous introduisons un cadre d'apprentissage pour estimer à la fois l'état d'un système dynamique et les incertitudes sous forme d'une matrice de covariance. Cette méthode trouve des applications dans les problèmes d'assimilation de données, pour lesquels on dispose d'observations bruitées et éparses couplées à des connaissances sur la dynamique physique. Les modèles de prévision météorologique ou océanographique sont concernés.La deuxième partie de cette thèse présente un modèle génératif ML produisant de nouveaux échantillons d'une distribution multivariée inconnue à partir d'exemples. Notre simulateur fournit des échantillons en dehors des données d'entraînement et permet d'extrapoler. Cette approche a des applications directes dans l'étude des risques environnementaux puisqu'elle permet la simulation numérique d'échantillons extrêmes rares.