Estimation d'ensembles de niveau d'une fonction de profondeur pour des données fonctionnelles. Applications au clustering et à la théorie du risque
Auteur / Autrice : | Elisabeth Armaut |
Direction : | Thomas Laloë, Roland Diel |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 10/06/2024 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences fondamentales et appliquées (Nice ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire J.-A. Dieudonné (Nice) |
Jury : | Président / Présidente : Elena Di Bernardino |
Examinateurs / Examinatrices : Thomas Laloë, Roland Diel, Elena Di Bernardino, Regina Y. Liu, Anne Philippe, Matthieu Lerasle, Stanislav Nagy | |
Rapporteur / Rapporteuse : Regina Y. Liu, Anne Philippe |
Mots clés
Résumé
Les fonctions de profondeur statistiques jouent un rôle fondamental dans l'analyse et la caractérisation des structures de données complexes. Les profondeurs fournissent une mesure de centralité ou d'excentricité pour une observation individuelle ou pour l'ensemble des données, ce qui aide à comprendre leurs positions relatives et leurs distributions sous-jacentes. Les concepts relatifs à la profondeur, tels qu'ils sont présents dans la littérature, trouvent leur origine dans la notion de profondeur de Tukey, également désignée sous le nom de profondeur médiane. Cette notion a été introduite par le statisticien John W. Tukey dans son article intitulé ''Mathematics and the Picturing of Data'' publié en 1975 [170]. La principale idée sous-jacente à la profondeur de Tukey consiste à généraliser la médiane univariée d'un jeu de données unidimensionnel en dimension supérieure.Dans un premier temps, nous nous intéressons aux profondeurs multivariées suivies des profondeurs fonctionnelles, pour lesquelles nous construisons une revue générale dans le Chapitre 1.Dans la seconde partie de la thèse, i.e. dans le Chapitre 2, nous entreprenons une étude rigoureuse des ensembles de niveaux des fonctions de profondeur multivariées et établissons plusieurs propriétés analytiques et statistiques. Tout d'abord, nous montrons que lorsque la profondeur multivariée sous-jacente est suffisamment régulière, la différence symétrique entre l'ensemble de niveaux de profondeur estimé et son équivalent théorique converge vers zéro en termes de volume d-dimensionel et de probabilité sous la distribution considérée. Outre ces contributions, la nouveauté du Chapitre 2, dans le cadre de la théorie du risque, réside dans l'introduction d'une mesure de risque basée sur une profondeur appelée Covariate-Conditional-Tail-Expectation (CCTE). Globalement, la CCTE vise à calculer un coût moyen sachant qu'au moins un des facteurs de risque en jeu est 'élevé' suivant une certaine direction. Cette dernière zone de risque est modélisée par un ensemble de niveau de faible profondeur. Contrairement à des mesures de risques fondées sur les queues de distribution, notre définition de CCTE est indépendante de toute direction grâce à l'implication des ensembles de niveaux d'une profondeur. Nous démontrons également que, lorsque la taille de l'échantillon tend vers l'infini, la CCTE basée sur la profondeur empirique est consistante par rapport à sa version théorique. Et nous fournissons les taux de convergence pour la CCTE, pour des niveaux de risque fixes ainsi que lorsque le niveau de risque tend vers zéro quand la taille de l'échantillon tend vers l'infini. Dans ce dernier cas d'étude, nous analysons de même le comportement de la définition originelle de CCTE basée sur une fonction de répartition, cas qui n'a pas été étudié dans [56]. En plus des simulations effectuées sur la CCTE, nous illustrons son utilité sur des données environnementales.La dernière partie de cette thèse, le Chapitre 3, conclut notre travail et consiste à définir une profondeur fonctionnelle générale pour des données fonctionnelles basée sur l'analyse en composantes principales fonctionnelles. Cela implique l'utilisation d'une profondeur multivariée générique. Dans cette optique, nous utilisons la décomposition bien connue de Karhunen-Loève comme outil pour pro- jeter un processus aléatoire centré et de carré intégrable le long d'une combinaison linéaire finie de fonctions orthogonales appelées composantes principales. À notre connaissance, il s'agit d'une approche novatrice dans le cadre des profondeurs fonctionnelles. Naturellement, nous proposons un estimateur de notre profondeur fonctionnelle pour lequel nous démontrons une consistance uniforme. Nous complétons enfin notre étude avec des simulations et des applications sur données réelles dans des problèmes de classifications, où notre nouvelle profondeur se révèle être au moins aussi performante que la plupart des concurrents classiques.