Thèse soutenue

Méthodes de localisation et applications à l'apprentissage robuste et à l'interpolation

FR  |  
EN
Auteur / Autrice : Geoffrey Chinot
Direction : Guillaume LecuéMatthieu Lerasle
Type : Thèse de doctorat
Discipline(s) : Mathématiques fondamentales
Date : Soutenance le 22/06/2020
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en Economie et Statistique (Palaiseau ; 1993-....)
: École nationale de la statistique et de l'administration économique (Palaiseau ; 1960-....)
Jury : Président / Présidente : Alexandre B. Tsybakov
Examinateurs / Examinatrices : Guillaume Lecué, Matthieu Lerasle, Alexandre B. Tsybakov, Gábor Lugosi, Sara A. van de Geer, Yannick Baraud, Alexandra Carpentier
Rapporteur / Rapporteuse : Gábor Lugosi, Sara A. van de Geer

Résumé

FR  |  
EN

Cette thèse de doctorat est centrée sur l'apprentissage supervisé. L'objectif principal est l'utilisation de méthodes de localisation pour obtenir des vitesses rapides de convergence, c'est-à-dire, des vitesse de l'ordre O(1/n), où n est le nombre d'observations. Ces vitesses ne sont pas toujours atteignables. Il faut imposer des contraintes sur la variance du problème comme une condition de Bernstein ou de marge. Plus particulièrement, dans cette thèse nous tentons d'établir des vitesses rapides de convergences pour des problèmes de robustesse et d'interpolation.On dit qu'un estimateur est robuste si ce dernier présente certaines garanties théoriques, sous le moins d'hypothèses possibles. Cette problématique de robustesse devient de plus en plus populaire. La raison principale est que dans l'ère actuelle du “big data'', les données sont très souvent corrompues. Ainsi, construire des estimateurs fiables dans cette situation est essentiel. Dans cette thèse nous montrons que le fameux minimiseur du risque empirique (regularisé) associé à une fonction de perte Lipschitz est robuste à des bruits à queues lourde ainsi qu'a des outliers dans les labels. En revanche si la classe de prédicteurs est à queue lourde, cet estimateur n'est pas fiable. Dans ce cas, nous construisons des estimateurs appelé estimateur minmax-MOM, optimal lorsque les données sont à queues lourdes et possiblement corrompues.En apprentissage statistique, on dit qu'un estimateur interpole, lorsque ce dernier prédit parfaitement sur un jeu d'entrainement. En grande dimension, certains estimateurs interpolant les données peuvent être bons. En particulier, cette thèse nous étudions le modèle linéaire Gaussien en grande dimension et montrons que l'estimateur interpolant les données de plus petite norme est consistant et atteint même des vitesses rapides.