Thèse soutenue

Modèles de mélange semi-paramétriques et applications aux tests multiples

FR  |  
EN
Auteur / Autrice : Van Hanh Nguyen
Direction : Elisabeth GassiatCatherine Matias
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 01/10/2013
Etablissement(s) : Paris 11
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques de la région Paris-Sud (1992-2015 ; Orsay)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....)
Jury : Président / Présidente : Cristina Butucea
Examinateurs / Examinatrices : Elisabeth Gassiat, Catherine Matias, Cristina Butucea, Gilles Blanchard, Stéphane Robin, Alain Celisse, Etienne Roquain
Rapporteur / Rapporteuse : Gilles Blanchard, Stéphane Robin

Résumé

FR  |  
EN

Dans un contexte de test multiple, nous considérons un modèle de mélange semi-paramétrique avec deux composantes. Une composante est supposée connue et correspond à la distribution des p-valeurs sous hypothèse nulle avec probabilité a priori p. L'autre composante f est nonparamétrique et représente la distribution des p-valeurs sous l'hypothèse alternative. Le problème d'estimer les paramètres p et f du modèle apparaît dans les procédures de contrôle du taux de faux positifs (``false discovery rate'' ou FDR). Dans la première partie de cette dissertation, nous étudions l'estimation de la proportion p. Nous discutons de résultats d'efficacité asymptotique et établissons que deux cas différents arrivent suivant que f s'annule ou non surtout un intervalle non-vide. Dans le premier cas (annulation surtout un intervalle), nous présentons des estimateurs qui convergent \`{a} la vitesse paramétrique, calculons la variance asymptotique optimale et conjecturons qu'aucun estimateur n'est asymptotiquement efficace (i.e atteint la variance asymptotique optimale). Dans le deuxième cas, nous prouvons que le risque quadratique de n'importe quel estimateur ne converge pas à la vitesse paramétrique. Dans la deuxième partie de la dissertation, nous nous concentrons sur l'estimation de la composante inconnue nonparamétrique f dans le mélange, en comptant sur un estimateur préliminaire de p. Nous proposons et étudions les propriétés asymptotiques de deux estimateurs différents pour cette composante inconnue. Le premier estimateur est un estimateur à noyau avec poids aléatoires. Nous établissons une borne supérieure pour son risque quadratique ponctuel, en montrant une vitesse de convergence nonparamétrique classique sur une classe de Holder. Le deuxième estimateur est un estimateur du maximum de vraisemblance régularisée. Il est calculé par un algorithme itératif, pour lequel nous établissons une propriété de décroissance d'un critère. De plus, ces estimateurs sont utilisés dans une procédure de test multiple pour estimer le taux local de faux positifs (``local false discovery rate'' ou lfdr).