Contributions à l'estimation robuste : optimalité minimax vs. efficacité calculatoire
Auteur / Autrice : | Amir-Hossein Bateni |
Direction : | Arnak S. Dalalyan |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 06/07/2022 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Economie et Statistique (Palaiseau ; 1993-....) - Centre de recherche en mathématiques de la décision (Paris) |
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau ; 1960-....) | |
Jury : | Président / Présidente : Alexandre B. Tsybakov |
Examinateurs / Examinatrices : Arnak S. Dalalyan, Alexandre B. Tsybakov, Mahdi Soltanolkotabi, Pierre Alquier, Guillaume Lecué, Nicolas Verzelen | |
Rapporteurs / Rapporteuses : Mahdi Soltanolkotabi, Pierre Alquier |
Mots clés
Résumé
En statistique et en théorie de l'apprentissage statistique, on suppose souvent que les échantillons sont distribués indépendamment et identiquement selon une distribution de probabilité de référence. Une approche plus réaliste pourrait consister à relaxer cette hypothèse en permettant à une fraction des échantillons de ne pas nécessairement suivre la distribution de référence. Ces échantillons désobéissants, appelés données aberrantes, peuvent considérablement détériorer la performance des estimateurs classiques. Dans ce travail, nous cherchons à estimer la moyenne des distributions de référence par des estimateurs robustes aux données aberrantes. Nous nous intéressons au comportement non-asymptotique des estimateurs. Dans un premier temps, nous décrivons divers modèles de contamination qui déterminent la nature des données aberrantes parmi nos observations. Puis, nous considérons le problème de l'estimation de la moyenne d'une distribution dont le support est le simplexe de probabilité de dimension k dans le cas où une fraction d'observations sont des données aberrantes générées par un adversaire. Un exemple particulier simple est le problème de l'estimation de la distribution d'une variable aléatoire discrète. Dans un deuxième temps, nous étudions le problème de l'estimation robuste de la moyenne d'une distribution gaussienne. Les estimateurs minimax-optimaux connus pour ce problème ne sont pas calculables en temps polynomial. Nous introduisons un estimateur efficace basé sur la réduction spectrale de dimension et établissons une borne supérieure sur son erreur qui est minimax-optimale modulo un facteur logarithmique.