A study of some trade-offs in statistical learning : online learning, generative models and fairness

par Nicolas Schreuder

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Arnak S. Dalalyan et de Victor Emmanuel Brunel.

  • Titre traduit

    Des compromis en apprentissage statistique : apprentissage en ligne, modèles génératifs et équité


  • Résumé

    Les algorithmes d'apprentissage automatique sont reconnus pour leurs performances impressionnantes sur de nombreuses tâches que l'on croyait dédiées à l'esprit humain, de la reconnaissance des chiffres manuscrits (LeCun et al. 1990) au pronostic du cancer (Kourou et al. 2015). Néanmoins, l'apprentissage automatique devenant de plus en plus omniprésent dans notre quotidien, il existe un besoin croissant de comprendre précisément leurs comportements et leurs limites.La théorie de l'apprentissage statistique est la branche de l'apprentissage automatique qui vise à fournir un formalisme de modélisation solide pour les problèmes d'inférence ainsi qu'une meilleure compréhension des propriétés statistiques des algorithmes d'apprentissage.Il est important de noter que la théorie de l'apprentissage statistique permet (i) de mieux comprendre les cas dans lesquels un algorithme fonctionne bien (ii) de quantifier les compromis inhérents à l'apprentissage pour des choix algorithmiques mieux informés (iii) de fournir des informations pour développer de nouveaux algorithmes qui finira par surpasser ceux existants ou s'attaquer à de nouvelles tâches. S'appuyant sur le cadre d'apprentissage statistique, cette thèse présente des contributions liées à trois problèmes d'apprentissage différents : l'apprentissage en ligne, l'apprentissage des modèles génératifs et, enfin, l'apprentissage équitable.Dans la configuration d'apprentissage en ligne - dans laquelle la taille de l'échantillon n'est pas connue à l'avance - nous fournissons des bornes de déviations (ou intervalles de confiance) uniformes dans la taille de l'échantillon dont la largeur a le taux donné dans la loi du logarithme itéré pour une classe générale de M-estimateurs convexes -- comprenant la moyenne, la médiane, les quantiles, les M-estimateurs de Huber.En ce qui concerne les modèles génératifs, nous proposons un cadre pratique pour étudier les modèles génératifs adversariaux (Goodfellow et al. 2014) d'un point de vue statistique afin d'évaluer l'impact d'une (éventuelle) faible dimensionnalité intrinsèque des données sur l'erreur du modèle génératif. Dans notre cadre, nous établissons des limites de risque non asymptotiques pour le minimiseur du risque empirique (MRE).Enfin, notre travail sur l'apprentissage équitable consiste en une large étude de la contrainte de parité démographique (DP en anglais), une contrainte populaire dans la littérature sur l'apprentissage équitable. La parité démographique contraint essentiellement les prédicteurs à traiter les groupes définis par un attribut sensible (par exemple, le sexe ou l'origine ethnique) pour qu'ils soient « traités de la même manière ». En particulier, nous proposons un cadre statistique minimax pour quantifier précisément le coût en risque d'introduire cette contrainte dans le cadre de la régression.


  • Résumé

    Machine learning algorithms are celebrated for their impressive performance on many tasksthat we thought were dedicated to human minds, from handwritten digits recognition (LeCunet al. 1990) to cancer prognosis (Kourou et al. 2015). Nevertheless, as machine learning becomes more and more ubiquitous in our daily lives, there is a growing need for precisely understanding their behaviours and their limits.Statistical learning theory is the branch of machine learning which aims at providing a powerful modelling formalism for inference problems as well as a better understanding of the statistical properties of learning algorithms.Importantly, statistical learning theory allows one to (i) get a better understanding of the cases in which an algorithm performs well (ii) quantify trade-offs inherent to learning for better-informed algorithmic choices (iii) provide insights to develop new algorithms which will eventually outperform existing ones or tackle new tasks. Relying on the statistical learning framework, this thesis presents contributions related to three different learning problems: online learning, learning generative models and, finally, fair learning.In the online learning setup -- in which the sample size is not known in advance -- we provide general anytime deviation bounds (or confidence intervals) whose width has the rate given in the Law of Iterated Logarithm for a general class of convex M-estimators -- comprising the mean, the median, quantiles, Huber’s M-estimators.Regarding generative models, we propose a convenient framework for studying adversarial generative models (Goodfellow et al. 2014) from a statistical perspective to assess the impact of (eventual) low intrinsic dimensionality of the data on the error of the generative model. In our framework, we establish non-asymptotic risk bounds for the Empirical Risk Minimizer (ERM).Finally, our work on fair learning consists in a broad study of the Demographic Parity (DP) constraint, a popular constraint in the fair learning literature. DP essentially constrains predictors to treat groups defined by a sensitive attribute (e.g., gender or ethnicity) to be “treated the same”. In particular, we propose a statistical minimax framework to precisely quantify the cost in risk of introducing this constraint in the regression setting.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole Nationale de la Statistique et de l'Administration Economique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.