Inférence statistique sur des variétés inconnues
Auteur / Autrice : | Clément Berenfeld |
Direction : | Marc Hoffmann |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 20/09/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | Ecole doctorale SDOSE (Paris) |
Partenaire(s) de recherche : | Laboratoire : Centre de recherche en mathématiques de la décision (Paris) - Centre de recherche en mathématiques de la décision (Paris) |
établissement opérateur d'inscription : Université Paris Dauphine-PSL (1968-....) | |
Jury : | Président / Présidente : Elisabeth Gassiat |
Examinateurs / Examinatrices : Marc Hoffmann, Elisabeth Gassiat, Frédéric Chazal, Richard Nickl, Catherine Aaron, Vincent Rivoirard, Judith Rousseau | |
Rapporteurs / Rapporteuses : Frédéric Chazal, Richard Nickl |
Mots clés
Mots clés contrôlés
Résumé
En statistique, l’hypothèse des variétés suppose que les données observées se répartissent autour de structures de faible dimension, appelées variétés. Ce postulat permet d’expliquer pourquoi les algorithmes d’apprentissage fonctionnent bien même sur des données en grande dimension, et est naturellement satisfait pour de nombreux jeux de données issus de la vie réelle. Nous présentons dans cette thèse quelques contributions aux problèmes d’estimation de deux quantités sous cette hypothèse : la densité de la distribution sous-jacente, et le reach de son support. Pour l’estimation du reach, nous élaborons des stratégies basées sur des invariants géométriques, avec d’une part la fonction de défaut de convexité, et d’autre part, des mesures de distortion métrique, desquels nous obtenons des vitesses de convergence optimales au sens minimax. Concernant l’estimation de la densité, nous proposons deux approches : l’une s’appuyant sur l’étude fréquentiste d’un estimateur à noyaux, et une approche bayésienne non-paramétrique se reposant sur des mélanges de gaussiennes. Nous montrons que ces deux méthodes sont optimales et adaptatives en la régularité de la densité. Enfin, nous examinons le comportement de certaines mesures de centralité dans des graphes aléatoires géométriques, l’étude duquel, bien que sans lien avec l’hypothèse des variétés, a des implications méthodologiques et théoriques qui peuvent être intéressantes dans tout cadre statistique.