Thèse soutenue

Contrôle du taux de faux positifs dans les ensembles de données structurées

FR  |  
EN
Auteur / Autrice : Iqraa Meah
Direction : Etienne RoquainSebastian Döhler
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 30/11/2023
Etablissement(s) : Sorbonne université en cotutelle avec Technische Universität (Darmstadt, Allemagne)
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury : Président / Présidente : Stéphane Robin
Examinateurs / Examinatrices : Sylvain Arlot, Magalie Fromont, Antje Jahn
Rapporteur / Rapporteuse : Jelle Goeman, Christophe Ambroise

Résumé

FR  |  
EN

Ce travail propose de nouvelles méthodologies pour contrôler la proportion de fausses découvertes (FDP) tout en tenant compte des structures inhérentes aux données contemporaines. Depuis les travaux fondamentaux de Benjamini et Hochberg (1995) (BH) introduisant le FDP, les procédures de tests multiples ont trouvé une application dans de nombreux domaines. La procédure BH a facilité l’identification de variables significatives dans de grands ensembles de données, permettant de répondre à des questions scientifiques dans des domaines tels que la biologie, les essais cliniques et le marketing, tout en fournissant des garanties sur la proportion de fausses découvertes. Toutefois, la procédure BH présente plusieurs limites : elle est plus efficace pour des p-valeurs uniformes sous l’hypothèse nulle ; elle est développée dans un cadre offline nécessitant la connaissance simultanée de toutes les p-valeurs ; les garanties de contrôle des fausses découvertes sont en espérance. Ces limitations peuvent entraîner une perte de puissance, une réduction de l’interprétabilité, voire une inflation de l’erreur de Type I dans différents contextes où les données sont considérées comme ''structurées'', tels que le contexte de p-valeurs discrètes, en ligne, pré-ordonnées ou pondérées. Ce travail vise à combler ces lacunes en fournissant de nouvelles procédures et méthodologies qui s’adaptent à chacun de ces contextes. Cela donne, in fine, au praticien des outils plus efficaces pour identifier les variables significatives dans un ensemble de données structurées, comme nous l’illustrons dans diverses expériences numériques.