Thèse soutenue

Inférence statistique sur des variétés inconnues

FR  |  
EN
Auteur / Autrice : Clément Berenfeld
Direction : Marc Hoffmann
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 20/09/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de recherche en mathématiques de la décision (Paris) - Centre de recherche en mathématiques de la décision (Paris)
établissement opérateur d'inscription : Université Paris Dauphine-PSL (1968-....)
Jury : Président / Présidente : Elisabeth Gassiat
Examinateurs / Examinatrices : Marc Hoffmann, Elisabeth Gassiat, Frédéric Chazal, Richard Nickl, Catherine Aaron, Vincent Rivoirard, Judith Rousseau
Rapporteurs / Rapporteuses : Frédéric Chazal, Richard Nickl

Résumé

FR  |  
EN

En statistique, l’hypothèse des variétés suppose que les données observées se répartissent autour de structures de faible dimension, appelées variétés. Ce postulat permet d’expliquer pourquoi les algorithmes d’apprentissage fonctionnent bien même sur des données en grande dimension, et est naturellement satisfait pour de nombreux jeux de données issus de la vie réelle. Nous présentons dans cette thèse quelques contributions aux problèmes d’estimation de deux quantités sous cette hypothèse : la densité de la distribution sous-jacente, et le reach de son support. Pour l’estimation du reach, nous élaborons des stratégies basées sur des invariants géométriques, avec d’une part la fonction de défaut de convexité, et d’autre part, des mesures de distortion métrique, desquels nous obtenons des vitesses de convergence optimales au sens minimax. Concernant l’estimation de la densité, nous proposons deux approches : l’une s’appuyant sur l’étude fréquentiste d’un estimateur à noyaux, et une approche bayésienne non-paramétrique se reposant sur des mélanges de gaussiennes. Nous montrons que ces deux méthodes sont optimales et adaptatives en la régularité de la densité. Enfin, nous examinons le comportement de certaines mesures de centralité dans des graphes aléatoires géométriques, l’étude duquel, bien que sans lien avec l’hypothèse des variétés, a des implications méthodologiques et théoriques qui peuvent être intéressantes dans tout cadre statistique.