Statistical and Computational Complexities of Robust and High-Dimensional Estimation Problems - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Statistical and Computational Complexities of Robust and High-Dimensional Estimation Problems

Complexités statistiques et informatiques de problèmes d'estimation robustes en haute dimension

Résumé

Statistical learning theory aims at providing a better understanding of the statistical properties of learning algorithms. These properties are often derived assuming the underlying data are gathered by sampling independent and identically distributed gaussian (or subgaussian) random variables. These properties can thus be drastically affected by the presence of gross errors (also called "outliers") in the data, and by data being heavy-tailed. We are interested in procedures that have good properties even when part of the data is corrupted and heavy-tailed, procedures that we call extit{robusts}, that we often get in this thesis by using the Median-Of-Mean heuristic.We are especially interested in procedures that are robust in high-dimensional set-ups, and we study (i) how dimensionality affects the statistical properties of robust procedures, and (ii) how dimensionality affects the computational complexity of the associated algorithms. In the study of the statistical properties (i), we find that for a large range of problems, the statistical complexity of the problems and its "robustness" can be in a sense "decoupled", leading to bounds where the dimension-dependent term is added to the term that depends on the corruption, rather than multiplied by it. We propose ways of measuring the statistical complexities of some problems in that corrupted framework, using for instance VC-dimension. We also provide lower bounds for some of those problems.In the study of computational complexity of the associated algorithm (ii), we show that in two special cases, namely robust mean-estimation with respect to the euclidean norm and robust regression, one can relax the associated optimization problems that becomes exponentially hard with the dimension to get tractable algorithm that behaves polynomially in the dimension.
La théorie de l'apprentissage statistique vise à fournir une meilleure compréhension des propriétés statistiques des algorithmes d'apprentissage. Ces propriétés sont souvent dérivées en supposant que les données sous-jacentes sont recueillies par échantillonnage de variables aléatoires gaussiennes (ou subgaussiennes) indépendantes et identiquement distribuées. Ces propriétés peuvent donc être radicalement affectées par la présence d'erreurs grossières (également appelées "valeurs aberrantes") dans les données, et par des données à queue lourde. Nous sommes intéressés par les procédures qui ont de bonnes propriétés même lorsqu'une partie des données est corrompue et à forte queue, procédures que nous appelons extit{robusts}, que nous obtenons souvent dans cette thèse en utilisant l'heuristique Median-Of-Mean.Nous sommes particulièrement intéressés par les procédures qui sont robustes dans des configurations à haute dimension, et nous étudions (i) comment la dimensionnalité affecte les propriétés statistiques des procédures robustes, et (ii) comment la dimensionnalité affecte la complexité computationnelle des algorithmes associés. Dans l'étude des propriétés statistiques (i), nous trouvons que pour une large gamme de problèmes, la complexité statistique des problèmes et sa "robustesse" peuvent être en un sens "découplées", conduisant à des limites où le terme dépendant de la dimension est ajouté au terme dépendant de la corruption, plutôt que multiplié par celui-ci. Nous proposons des moyens de mesurer les complexités statistiques de certains problèmes dans ce cadre corrompu, en utilisant par exemple la dimension VC. Nous fournissons également des limites inférieures pour certains de ces problèmes.Dans l'étude de la complexité computationnelle de l'algorithme associé (ii), nous montrons que dans deux cas particuliers, à savoir l'estimation robuste de la moyenne par rapport à la norme euclidienne et la régression robuste, on peut relaxer les problèmes d'optimisation associés qui deviennent exponentiellement difficiles avec la dimension pour obtenir un algorithme traitable qui se comporte de manière polynomiale dans la dimension.
Fichier principal
Vignette du fichier
101496_DEPERSIN_2021_archivage.pdf (4.99 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03544727 , version 1 (26-01-2022)

Identifiants

  • HAL Id : tel-03544727 , version 1

Citer

Jules Depersin. Statistical and Computational Complexities of Robust and High-Dimensional Estimation Problems. Statistics [math.ST]. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAG009⟩. ⟨tel-03544727⟩
175 Consultations
142 Téléchargements

Partager

Gmail Facebook X LinkedIn More