Thèse soutenue

Quelques contributions à la sélection de variables, au clustering et à l’estimation statistique en grande dimension

FR  |  
EN
Auteur / Autrice : Mohamed Ndaoud
Direction : Alexandre B. Tsybakov
Type : Thèse de doctorat
Discipline(s) : Mathématiques fondamentales
Date : Soutenance le 03/07/2019
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en Economie et Statistique (Palaiseau ; 1993-....)
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau ; 1960-....)
Jury : Président / Présidente : Christophe Giraud
Examinateurs / Examinatrices : Alexandre B. Tsybakov, Christophe Giraud, Yihong Wu, Alexandra Carpentier, Enno Mammen, Cristina Butucea, Nicolas Verzelen
Rapporteurs / Rapporteuses : Yihong Wu, Alexandra Carpentier

Résumé

FR  |  
EN

Cette thèse traite les problèmes statistiques suivants : la sélection de variables dans le modèle de régression linéaire en grande dimension, le clustering dans le modèle de mélange Gaussien, quelques effets de l'adaptabilité sous l'hypothèse de parcimonie ainsi que la simulation des processus Gaussiens.Sous l'hypothèse de parcimonie, la sélection de variables correspond au recouvrement du "petit" ensemble de variables significatives. Nous étudions les propriétés non-asymptotiques de ce problème dans la régression linéaire en grande dimension. De plus, nous caractérisons les conditions optimales nécessaires et suffisantes pour la sélection de variables dans ce modèle. Nous étudions également certains effets de l'adaptation sous la même hypothèse. Dans le modèle à vecteur parcimonieux, nous analysons les changements dans les taux d'estimation de certains des paramètres du modèle lorsque le niveau de bruit ou sa loi nominale sont inconnus.Le clustering est une tâche d'apprentissage statistique non supervisée visant à regrouper des observations proches les unes des autres dans un certain sens. Nous étudions le problème de la détection de communautés dans le modèle de mélange Gaussien à deux composantes, et caractérisons précisément la séparation optimale entre les groupes afin de les recouvrir de façon exacte. Nous fournissons également une procédure en temps polynomial permettant un recouvrement optimal des communautés.Les processus Gaussiens sont extrêmement utiles dans la pratique, par exemple lorsqu'il s'agit de modéliser les fluctuations de prix. Néanmoins, leur simulation n'est pas facile en général. Nous proposons et étudions un nouveau développement en série à taux optimal pour simuler une grande classe de processus Gaussiens.