Thèse soutenue

Des compromis en apprentissage statistique : apprentissage en ligne, modèles génératifs et équité

FR  |  
EN
Auteur / Autrice : Nicolas Schreuder
Direction : Arnak S. DalalyanVictor Emmanuel Brunel
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 05/10/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Centre de recherche en économie et statistique (France)
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau, Essonne)
Jury : Président / Présidente : Alexandre B. Tsybakov
Examinateurs / Examinatrices : Arnak S. Dalalyan, Victor Emmanuel Brunel, Alexandre B. Tsybakov, Aurélien Garivier, Massimiliano Pontil, Gérard Biau, Lorenzo Rosasco
Rapporteurs / Rapporteuses : Aurélien Garivier, Massimiliano Pontil

Résumé

FR  |  
EN

Les algorithmes d'apprentissage automatique sont reconnus pour leurs performances impressionnantes sur de nombreuses tâches que l'on croyait dédiées à l'esprit humain, de la reconnaissance des chiffres manuscrits (LeCun et al. 1990) au pronostic du cancer (Kourou et al. 2015). Néanmoins, l'apprentissage automatique devenant de plus en plus omniprésent dans notre quotidien, il existe un besoin croissant de comprendre précisément leurs comportements et leurs limites.La théorie de l'apprentissage statistique est la branche de l'apprentissage automatique qui vise à fournir un formalisme de modélisation solide pour les problèmes d'inférence ainsi qu'une meilleure compréhension des propriétés statistiques des algorithmes d'apprentissage.Il est important de noter que la théorie de l'apprentissage statistique permet (i) de mieux comprendre les cas dans lesquels un algorithme fonctionne bien (ii) de quantifier les compromis inhérents à l'apprentissage pour des choix algorithmiques mieux informés (iii) de fournir des informations pour développer de nouveaux algorithmes qui finira par surpasser ceux existants ou s'attaquer à de nouvelles tâches. S'appuyant sur le cadre d'apprentissage statistique, cette thèse présente des contributions liées à trois problèmes d'apprentissage différents : l'apprentissage en ligne, l'apprentissage des modèles génératifs et, enfin, l'apprentissage équitable.Dans la configuration d'apprentissage en ligne - dans laquelle la taille de l'échantillon n'est pas connue à l'avance - nous fournissons des bornes de déviations (ou intervalles de confiance) uniformes dans la taille de l'échantillon dont la largeur a le taux donné dans la loi du logarithme itéré pour une classe générale de M-estimateurs convexes -- comprenant la moyenne, la médiane, les quantiles, les M-estimateurs de Huber.En ce qui concerne les modèles génératifs, nous proposons un cadre pratique pour étudier les modèles génératifs adversariaux (Goodfellow et al. 2014) d'un point de vue statistique afin d'évaluer l'impact d'une (éventuelle) faible dimensionnalité intrinsèque des données sur l'erreur du modèle génératif. Dans notre cadre, nous établissons des limites de risque non asymptotiques pour le minimiseur du risque empirique (MRE).Enfin, notre travail sur l'apprentissage équitable consiste en une large étude de la contrainte de parité démographique (DP en anglais), une contrainte populaire dans la littérature sur l'apprentissage équitable. La parité démographique contraint essentiellement les prédicteurs à traiter les groupes définis par un attribut sensible (par exemple, le sexe ou l'origine ethnique) pour qu'ils soient « traités de la même manière ». En particulier, nous proposons un cadre statistique minimax pour quantifier précisément le coût en risque d'introduire cette contrainte dans le cadre de la régression.