Thèse soutenue

Contrôle statistique de modèles parcimonieux en grande dimension

FR  |  
EN
Auteur / Autrice : Jérôme-Alexis Chevalier
Direction : Bertrand Thirion
Type : Thèse de doctorat
Discipline(s) : Mathématiques et Informatique
Date : Soutenance le 11/12/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France) - NeuroSpin (Gif-sur-Yvette, Essonne ; 2017-....) - Télécom Paris (Palaiseau, Essonne ; 1878-....)
référent : Faculté des sciences d'Orsay
Equipe de recherche : parietal
Jury : Président / Présidente : Christophe Ambroise
Examinateurs / Examinatrices : Chloé-Agathe Azencott, Thomas Nichols, Joseph Salmon, Pierre Neuvial
Rapporteurs / Rapporteuses : Chloé-Agathe Azencott, Thomas Nichols

Résumé

FR  |  
EN

Cette thèse s’intéresse au problème de l’inférence statistique multivariée en grande dimension en présence de données structurées. Plus précisément, étant données une variable cible et un ensemble de variables explicatives, nous souhaitons déterminer les variables explicatives qui sont prédictives conditionnellement aux autres, i.e., nous cherchons à identifier le support dans le modèle prédictif linéaire. Comme nous désirons avoir un contrôle sur l’occurrence de faux positifs, nous nous concentrons sur les méthodes donnant des garanties statistiques. Cette étude s’applique notamment aux problèmes d’inférence sur des images haute-résolution dans lesquels le signal de chaque pixel ou voxel est considéré comme une variable explicative, c’est par exemple le cas en neuro-imagerie ou en astronomie. Cela peut également s’appliquer à d’autres problèmes dans lesquels les variables explicatives sont spatialement structurées comme en génomique par exemple. Pour ce type de données, les méthodes existantes destinées à l’identification de support ne sont pas satisfaisantes car elles manquent de puissance et ont généralement un coût computationnel trop élevé. Par conséquent, le problème est difficile en terme de modélisation statistique mais aussi du point de vue computationnel. Dans ce type de problème, les variables explicatives détiennent une structure spatiale qui peut être exploitée. Par exemple, en neuro-imagerie, une image de cerveau possède une représentation 3D dans laquelle un voxel est très corrélé à ses voisins. Nous proposons notamment la méthode ”ensemble of clustered desparsified Lasso” qui combine trois éléments: i) une procédure de clustering avec contraintes spatiales pour réduire la dimension du problème en tenant compte de la structure de la donnée; ii) une méthode d’inférence statistique appelée ”desparsified Lasso” qui peut être déployée sur le problème réduit; et iii) une méthode d’ensembling qui agrège les solutions obtenues sur les différents problèmes réduits afin d’éviter de dépendre d’un choix de clustering nécessairement imparfait et arbitraire. Nous proposons également une nouvelle façon de contrôler l’occurrence de faux positifs en intégrant une tolérance spatiale dans ce contrôle. Dans cette étude, nous nous focalisons sur des jeux de donnée de neuro-imagerie, mais les méthodes que nous présentons sont applicables à d’autres domaines qui partagent une configuration semblable.