Méthodes d'apprentissage statistique pour l'étude de problèmes géochimiques non linéaires
Auteur / Autrice : | Mary Edith Savino |
Direction : | Céline Lévy-Leduc, Benoit Cochepin, Marc Leconte |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 30/09/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard |
Partenaire(s) de recherche : | Laboratoire : MIA-Paris-Saclay - Mathématiques et Informatique Appliquées - Agence nationale pour la gestion des déchets radioactifs (France) |
référent : Faculté des sciences d'Orsay | |
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....) | |
Jury : | Président / Présidente : Mathilde Mougeot |
Examinateurs / Examinatrices : Olivier Bouaziz, Vincent Lagneau, Nikolaos Prasianakis, Marco De Lucia | |
Rapporteurs / Rapporteuses : Olivier Bouaziz, Vincent Lagneau |
Résumé
Dans le cadre de simulations numériques de systèmes géochimiques s'intégrant dans un projet de stockage profond de déchets hautement radioactifs, nous proposons dans cette thèse deux méthodes d'estimation de fonction ainsi qu'une méthode de sélection de variables dans un modèle de régression non-paramétrique multivarié.Plus précisément, dans le Chapitre 2, nous présentons une procédure d'apprentissage actif utilisant les processus Gaussiens pour approcher des fonctions inconnues ayant plusieurs variables d'entrée. Cette méthode permet à chaque itération le calcul de l'incertitude globale sur l'estimation de la fonction et donc de choisir astucieusement les points en lesquels la fonction à estimer doit être évaluée. Ceci permet de réduire considérablement le nombre d'observations nécessaire à l'obtention d'une estimation satisfaisante de la fonction sous-jacente. De ce fait, cette méthode permet de limiter les appels à un logiciel dit "solveur" d'équations de réactions géochimiques, ce qui réduit les temps de calculs.Dans le Chapitre 3, nous proposons une deuxième méthode d'estimation de fonctions non séquentielle consistant à approximer la fonction à estimer par une combinaison linéaire de B-splines et appelée GLOBER. Dans cette approche, les noeuds des B-splines pouvant être considérés comme des changements dans les dérivées de la fonction à estimer, ceux-ci sont choisis à l'aide du generalized lasso. Dans le Chapitre 4, nous introduisons une nouvelle méthode de sélection de variables dans un modèle de régression non-paramétrique multivarié, ABSORBER, pour identifier les variables dont dépend réellement la fonction inconnue considérée et réduire ainsi la complexité des systèmes géochimiques étudiés. Dans cette approche, nous considérons que la fonction à estimer peut être approximée par une combinaison linéaire de B-splines et de leurs termes d'interactions deux-à-deux. Les coefficients de chaque terme de la combinaison linéaire sont estimés en utilisant un critère des moindres carrés standard pénalisé par les normes l2 des dérivées partielles par rapport à chaque variable.Les approches considérées ont été évaluées puis validées à l'aide de simulations numériques et ont toutes été appliquées à des systèmes géochimiques plus ou moins complexes. Des comparaisons à des méthodes de l'état de l'art ont également permis de montrer de meilleures performances obtenues par nos méthodes.Dans le Chapitre 5, les méthodes d'estimation de fonctions ainsi que la méthode de sélection de variables ont été appliquées dans le cadre d'un projet européen EURAD et comparées aux méthodes d'autres équipes impliquées dans le projet. Cette application a permis de montrer la performance de nos méthodes, notamment lorsque seules les variables pertinentes sélectionnées avec ABSORBER sont considérées.Les méthodes proposées ont été implémentées dans des packages R : glober et absorber qui sont disponibles sur le CRAN (Comprehensive R Archive Network).