Estimation robuste pour des distributions à queue lourde

par Emilien Joly

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Gilles Stoltz et de Gábor Lugosi.

Soutenue le 14-12-2015

à Paris Saclay , dans le cadre de École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) , en partenariat avec Université Paris-Sud (établissement opérateur d'inscription) et de Laboratoire de mathématiques d'Orsay (1998-....) (laboratoire) .

Le président du jury était Pascal Massart.

Le jury était composé de Gilles Stoltz, Gábor Lugosi, Pascal Massart, Jean-Michel Loubès, Olivier Catoni, Antoine Chambaz.

Les rapporteurs étaient Jean-Michel Loubès.


  • Résumé

    Nous nous intéressons à estimer la moyenne d'une variable aléatoire de loi à queue lourde. Nous adoptons une approche plus robuste que la moyenne empirique classique communément utilisée. L'objectif est de développer des inégalités de concentration de type sous-gaussien sur l'erreur d'estimation. En d'autres termes, nous cherchons à garantir une forte concentration sous une hypothèse plus faible que la bornitude : une variance finie. Deux estimateurs de la moyenne pour une loi à support réel sont invoqués et leurs résultats de concentration sont rappelés. Plusieurs adaptations en dimension supérieure sont envisagées. L'utilisation appropriée de ces estimateurs nous permet d'introduire une nouvelle technique de minimisation du risque empirique pour des variables aléatoires à queue lourde. Quelques applications de cette technique sont développées. Nous appuyons ces résultats sur des simulations sur des jeux de données simulées. Dans un troisième temps, nous étudions un problème d'estimation multivarié dans le cadre des U-statistiques où les estimateurs précédents offrent, là aussi, une généralisation naturelle d'estimateurs présents dans la littérature.

  • Titre traduit

    Robust estimation of heavy-tailed distributions


  • Résumé

    In this thesis, we are interested in estimating the mean of heavy-tailed random variables. We focus on a robust estimation of the mean approach as an alternative to the classical empirical mean estimation. The goal is to develop sub-Gaussian concentration inequalities for the estimating error. In other words, we seek strong concentration results usually obtained for bounded random variables, in the context where the bounded condition is replaced by a finite variance condition. Two existing estimators of the mean of a real-valued random variable are invoked and their concentration results are recalled. Several new higher dimension adaptations are discussed. Using those estimators, we introduce a new version of empirical risk minimization for heavy-tailed random variables. Some applications are developed. These results are illustrated by simulations on artificial data samples. Lastly, we study the multivariate case in the U-statistics context. A natural generalization of existing estimators is offered, once again, by previous estimators.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?