Étude statistique de l’analyse en composantes principales fonctionnelle dans les cadres uni et multivarié
Auteur / Autrice : | Ryad mohammed Belhakem |
Direction : | Vincent Rivoirard, Angelina Roche, Franck Picard |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées et applications des mathématiques |
Date : | Soutenance le 10/06/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | Ecole doctorale SDOSE (Paris) |
Partenaire(s) de recherche : | Laboratoire : Centre de recherche en mathématiques de la décision (Paris) - CEntre de REcherches en MAthématiques de la DEcision / CEREMADE |
établissement opérateur d'inscription : Université Paris Dauphine-PSL (1968-....) | |
Jury : | Président / Présidente : Sophie Dabo-Niang |
Examinateurs / Examinatrices : Vincent Rivoirard, Angelina Roche, Franck Picard, Sophie Dabo-Niang, Irène Gijbels, Hervé Cardot, André Mas | |
Rapporteurs / Rapporteuses : Irène Gijbels, Hervé Cardot |
Mots clés
Résumé
Ce travail est la concaténation de deux parties, ayant pour point comment de porter sur l'analyse de données fonctionnelle et en particulier de s'intéresser aux questions liées à la grande dimension dans ce contexte. La première partie concerne l'analyse en composante principale fonctionnelle dans le cas univarié. Notre approche vise à donner des résultats non-asymptotiques pour différents estimateurs de projection des éléments propres d'un opérateur de covariance. Nous définissons d'abord un estimateur basé sur un opérateur de projection. Cet opérateur peut être vu comme une étape de reconstruction des données brutes dans le contexte de l'analyse des données fonctionnelles. Nous montrons que l'estimateur naïf, qui calcule les éléments propres sans régularisation après l'étape de projection, est optimal au sens minimax pour un bon choix de base. À cette fin, nous établissons à la fois une limite inférieure et supérieure sur l'erreur quadratique moyenne de reconstruction des éléments propres. Nous prouvons également des résultats généraux pour les bases générales de Lipschitz et de Daubechies qui n'atteignent pas les vitesses minimax. Dans le cas de Daubechies, un seuillage est nécessaire pour atteindre son taux optimal. Cette partie est conclue par des simulations numériques qui confirment l'acuité de l'approche et une application à des données génomique. La seconde partie concerne la généralisation du modèle au cas fonctionnelle multivarié. Comme en première partie notre approche vise à donner des résultats non-asymptotiques pour l'estimation de la première composante principale d'un processus aléatoire multivarié. Nous définissons d'abord la fonction de covariance et l'opérateur de covariance dans le cas multivarié. On définit alors un opérateur de projection. Cet opérateur peut être vu comme une étape de reconstruction à partir des données brutes dans le contexte d'analyse de données fonctionnelles. Ensuite, nous montrons que les éléments propres peuvent être exprimés comme la solution d'un problème d'optimisation, et nous introduisons la variante LASSO de ce problème d'optimisation et l'estimateur de plugin associé. Enfin, nous évaluons la précision de l'estimateur. Nous établissons une borne inférieure minimax sur l'erreur quadratique moyenne de reconstruction de l'élément propre, ce qui prouve que la procédure a une variance optimale au sens minimax.