Statistical control of sparse models in high dimension - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Statistical control of sparse models in high dimension

Contrôle statistique de modèles parcimonieux en grande dimension

Résumé

In this thesis, we focus on the multivariate inference problem in the context of high-dimensional structured data. More precisely, given a set of explanatory variables (features) and a target, we aim at recovering the features that are predictive conditionally to others, i.e., recovering the support of a linear predictive model. We concentrate on methods that come with statistical guarantees since we want to have a control on the occurrence of false discoveries. This is relevant to inference problems on high-resolution images, where one aims at pixel- or voxel-level analysis, e.g., in neuroimaging, astronomy, but also in other settings where features have a spatial structure, e.g., in genomics. In such settings, existing procedures are not helpful for support recovery since they lack power and are generally not tractable. The problem is then hard both from the statistical modeling point of view, and from a computation perspective. In these settings, feature values typically reflect the underlying spatial structure, which can thus be leveraged for inference. For example, in neuroimaging, a brain image has a 3D representation and a given voxel is highly correlated with its neighbors. We notably propose the ensemble of clustered desparsified Lasso (ecd-Lasso) estimator that combines three steps: i) a spatially constrained clustering procedure that reduces the problem dimension while taking into account data structure, ii) the desparsified Lasso (d-Lasso) statistical inference procedure that is tractable on reduced versions of the original problem, and iii) an ensembling method that aggregates the solutions of different compressed versions of the problem to avoid relying on only one arbitrary data clustering choice. We consider new ways to control the occurrence of false discoveries with a given spatial tolerance. This control is well adapted to spatially structured data. In this work, we focus on neuroimaging datasets but the methods that we present can be adapted to other fields which share similar setups.
Cette thèse s’intéresse au problème de l’inférence statistique multivariée en grande dimension en présence de données structurées. Plus précisément, étant données une variable cible et un ensemble de variables explicatives, nous souhaitons déterminer les variables explicatives qui sont prédictives conditionnellement aux autres, i.e., nous cherchons à identifier le support dans le modèle prédictif linéaire. Comme nous désirons avoir un contrôle sur l’occurrence de faux positifs, nous nous concentrons sur les méthodes donnant des garanties statistiques. Cette étude s’applique notamment aux problèmes d’inférence sur des images haute-résolution dans lesquels le signal de chaque pixel ou voxel est considéré comme une variable explicative, c’est par exemple le cas en neuro-imagerie ou en astronomie. Cela peut également s’appliquer à d’autres problèmes dans lesquels les variables explicatives sont spatialement structurées comme en génomique par exemple. Pour ce type de données, les méthodes existantes destinées à l’identification de support ne sont pas satisfaisantes car elles manquent de puissance et ont généralement un coût computationnel trop élevé. Par conséquent, le problème est difficile en terme de modélisation statistique mais aussi du point de vue computationnel. Dans ce type de problème, les variables explicatives détiennent une structure spatiale qui peut être exploitée. Par exemple, en neuro-imagerie, une image de cerveau possède une représentation 3D dans laquelle un voxel est très corrélé à ses voisins. Nous proposons notamment la méthode ”ensemble of clustered desparsified Lasso” qui combine trois éléments: i) une procédure de clustering avec contraintes spatiales pour réduire la dimension du problème en tenant compte de la structure de la donnée; ii) une méthode d’inférence statistique appelée ”desparsified Lasso” qui peut être déployée sur le problème réduit; et iii) une méthode d’ensembling qui agrège les solutions obtenues sur les différents problèmes réduits afin d’éviter de dépendre d’un choix de clustering nécessairement imparfait et arbitraire. Nous proposons également une nouvelle façon de contrôler l’occurrence de faux positifs en intégrant une tolérance spatiale dans ce contrôle. Dans cette étude, nous nous focalisons sur des jeux de donnée de neuro-imagerie, mais les méthodes que nous présentons sont applicables à d’autres domaines qui partagent une configuration semblable.
Fichier principal
Vignette du fichier
98278_CHEVALIER_2020_archivage.pdf (32.46 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03147200 , version 1 (19-02-2021)

Identifiants

  • HAL Id : tel-03147200 , version 1

Citer

Jérôme-Alexis Chevalier. Statistical control of sparse models in high dimension. Machine Learning [stat.ML]. Université Paris-Saclay, 2020. English. ⟨NNT : 2020UPASG051⟩. ⟨tel-03147200⟩
182 Consultations
47 Téléchargements

Partager

Gmail Facebook X LinkedIn More