Thèse en cours

Estimation optimale adaptative dans des modèles hétéroscédastiques

FR  |  
EN
Auteur / Autrice : Sirine Louati
Direction : Alexandre B. Tsybakov
Type : Projet de thèse
Discipline(s) : Mathématiques appliquées
Date : Inscription en doctorat le 01/10/2023
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : CREST - Centre de recherche en économie et statistique
Equipe de recherche : Pôle de Statistique

Résumé

FR  |  
EN

Dans l'estimation statistique, on vise à extraire des informations sur une population à partir d'une collection des données. Une grande partie de la théorie de l'estimation traite de la situation où, grosso modo, toutes les observations proviennent d'une source unique et portent donc essentiellement la même quantité d'informations. Bien que convenable pour la théorie, cette hypothèse ne décrit pas avec précision certaines situations pratiques, où l'on souhaiterait incorporer différentes sources de données. Par exemple, on peut avoir à sa disposition un grand nombre d'observations très bruitées ou de « basse qualité » (par exemple, des données médicales), ainsi qu'un plus petit nombre d'observations « de haute qualité », que l'on voudrait agréger d'une manière raisonnée. La formalisation naturelle de cette configuration correspond à l'estimation « hétéroscédastique », où certaines observations peuvent être plus informatives (ou moins bruitées) que d'autres. Si la quantité de bruit dans chaque observation est connue a priori, il est toujours utile d'avoir plus d'observations, et il existe un moyen optimal de les exploiter pour produire une estimation de haute qualité. La situation est beaucoup moins claire dans le cas plus réaliste où la quantité de bruit dans chaque observation est inconnue du statisticien. Idéalement, on aimerait exploiter des observations hautement informatives. Bien que l'estimation hétéroscédastique soit un sujet classique en statistique, les limites fondamentales de ce qui est réalisable dans ce contexte sont loin d'être comprises. Ce sujet a également un lien avec l'estimation robuste, qui a connu un regain d'intérêt remarquable au cours de la dernière décennie. En effet, dans l'estimation robuste, on tente de limiter l'effet dommageable d'une petite fraction d'observations « aberrantes ». Au contraire, dans l'estimation hétéroscédastique, on aimerait exploiter la présence (possible) d'une petite fraction de données hautement informatives. Comprendre ce qui est possible en théorie pourrait également conduire à des méthodes sensées qui pourraient être déployées dans la pratique, car la plupart des heuristiques naïves (qui ne sont pas soutenues par une analyse théorique) semblent échouer ou produire des résultats sous-optimaux pour ce problème.