Thèse soutenue

Post-hoc predictive uncertainty quantification : methods with applications to electricity price forecasting

FR  |  
EN
Auteur / Autrice : Margaux Zaffran
Direction : Julie JosseAymeric Dieuleveut
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 25/06/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de mathématiques appliquées de l'Ecole polytechnique (Palaiseau ; 1974-....) - Centre de Mathématiques Appliquées de l'Ecole polytechnique / CMAP
Jury : Président / Présidente : Florence Forbes
Examinateurs / Examinatrices : Julie Josse, Aymeric Dieuleveut, Etienne Roquain, Pierre Patrick Pinson, Emmanuel Jean Candès, Éric Moulines, Aaditya Ramdas
Rapporteurs / Rapporteuses : Etienne Roquain, Pierre Patrick Pinson

Résumé

FR  |  
EN

L'essor d'algorithmes d'apprentissage statistique offre des perspectives prometteuses pour prévoir les prix de l'électricité. Cependant, ces méthodes fournissent des prévisions ponctuelles, sans indication du degré de confiance à leur accorder. Pour garantir un déploiement sûr de ces modèles prédictifs, il est crucial de quantifier leur incertitude prédictive. Cette thèse porte sur le développement d'intervalles prédictifs pour tout algorithme de prédiction. Bien que motivées par le secteur électrique, les méthodes développées, basées sur la prédiction conforme par partition (SCP), sont génériques : elles peuvent être appliquées dans de nombreux autres domaines sensibles.Dans un premier temps,cette thèse étudie la quantification post-hoc de l'incertitude prédictive pour les séries temporelles. Le premier obstacle à l'application de SCP pour obtenir des prévisions probabilistes théoriquement valides des prix de l'électricité de manière post-hoc est l'aspect temporel hautement non-stationnaire des prix de l'électricité, brisant l'hypothèse d'échangeabilité. La première contribution propose un algorithme qui ne dépend pas d'un paramètre et adapté aux séries temporelles, reposant sur l'analyse théorique de l'efficacité d'une méthode pré-existante, l'Inférence Conforme Adaptative. La deuxième contribution mène une étude d'application détaillée sur un nouveau jeu de données de prix spot français récents et turbulents en 2020 et 2021.Un autre défi sont les valeurs manquantes (NAs). Dans un deuxièmte temps, cette thèse analyse l'interaction entre les NAs et la quantification de l'incertitude prédictive. La troisième contribution montre que les NAs induisent de l'hétéroscédasticité, ce qui conduit à une couverture inégale en fonction de quelles valeurs sont manquantes. Deux algorithmes sont conçus afin d'assurer une couverture constante quelque soit le schéma de NAs, ceci étant assuré sous des hypothèses distributionnelles sur les NAs. La quatrième contribution approfondit l'analyse théorique afin de comprendre précisément quelles hypothèses de distribution sont inévitables pour construite des régions prédictives informatives. Elle unifie également les algorithmes proposés précédemment dans un cadre général qui démontre empiriquement être robuste aux violations des hypothèses distributionnelles sur les NAs.