Thèse soutenue

Quelques contributions aux tests d'hypothèses multiples en grande dimension
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Binh Tuan Nguyen
Direction : Sylvain ArlotBertrand Thirion
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 10/12/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Jury : Président / Présidente : Christophe Giraud
Examinateurs / Examinatrices : Jelle Goeman, Etienne Roquain, Jeanette A. Mumford, Claire Boyer
Rapporteurs / Rapporteuses : Jelle Goeman, Etienne Roquain

Résumé

FR  |  
EN

Cette thèse traite des problèmes de tests multiples en grande dimension, un régime qui est devenu populaire dans l'inférence statistique moderne. Son objectif principal est de fournir des algorithmes efficaces et fiables pour l'inférence multivariée, un problème difficile qui souffre du fléau de la dimension. Nos solutions améliorent les méthodes de l'état de l'art, les rendent plus stables et efficaces tout en conservant leurs garanties théoriques sur le contrôle des métriques de tests multiples. De plus, nous montrons que nos contributions sont raisonnablement performantes par rapport à l'état de l'art dans des applications concrètes, à savoir des problèmes issus des sciences de la vie, comme les neurosciences, l'imagerie médicale et la génomique. En particulier, nous étudions les propriétés des filtres ''knockoff'', une méthode de contrôle du taux de fausses découvertes (False Discovery Rate -- FDR), qui nécessite peu d'hypothèses sur la loi des données. Nous proposons ensuite des méthodes d'agrégation de plusieurs échantillonnages pour traiter le caractère aléatoire du filtre knockoff, et prouvons des résultats théoriques non asymptotiques sur le knockoff agrégé, en particulier une garantie de contrôle du FDR, qui repose sur certaines inégalités de concentration. En outre, nous étendons la méthode, en fournissant une version qui peut s'adapter à un régime de dimension extrêmement élevée. L'une des étapes clés est l'utilisation d'un regroupement (clustering) aléatoire des covariables, afin d'éviter le fléau de la dimension, puis l'assemblage de plusieurs exécutions afin de limiter les biais causés par l'utilisation d'un seul regroupement. Afin de prendre en compte la compression des données qui résulte de l'étape de clustering, nous introduisons une relaxation spatiale du taux de fausses découvertes. Enfin, nous considérons le problème de construction de p-valeurs pour l'inférence conditionnelle avec la régression logistique en grande dimension. Cette méthode est une variante du test de randomisation conditionnel, avec un schéma de décorrélation supplémentaire qui donne des statistiques de test plus précises et plus puissantes que les estimateurs précédents. Nous concluons la thèse par une discussion sur certaines questions ouvertes, qui nous semblent importantes et peuvent servir de directions de travail pour améliorer les méthodes d'inférence en grande dimension et leur application à des domaines tels que la génomique ou l'imagerie cérébrale.