Thèse soutenue

Contributions à l'apprentissage statistique : estimation de densité, agrégation d'experts et forêts aléatoires

FR  |  
EN
Auteur / Autrice : Jaouad Mourtada
Direction : Stéphane GaïffasErwan Scornet
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 08/06/2020
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Centre de mathématiques appliquées (Palaiseau, Essonne)
Jury : Président / Présidente : Cristina Butucea
Examinateurs / Examinatrices : Stéphane Gaïffas, Erwan Scornet, Aurélien Garivier, Peter D. Grünwald, Francis Bach, Gérard Biau, Gábor Lugosi
Rapporteurs / Rapporteuses : Aurélien Garivier, Peter D. Grünwald

Résumé

FR  |  
EN

L’apprentissage statistique fournit un cadre aux problèmes de prédiction, où l’on cherche à prédire des quantités inconnues à partir d’exemples.La première partie de cette thèse porte sur les méthodes de Forêts aléatoires, une famille d'algorithmes couramment utilisés en pratique, mais dont l'étude théorique s'avère délicate. Notre principale contribution est l'analyse précise d'une variante stylisée, les forêts de Mondrian, pour lesquelles nous établissons des vitesses de convergence non paramétriques minimax ainsi qu'un avantage des forêts sur les arbres. Nous étudions également une variante "en ligne" des forêts de Mondrian.La seconde partie est dédiée à l'agrégation d'experts, où il s'agit de combiner plusieurs sources de prédictions (experts) afin de prédire aussi bien que la meilleure d'entre elles. Nous analysons l'algorithme classique d'agrégation à poids exponentiels dans le cas stochastique, où il exhibe une certaine adaptativité à la difficulté du problème. Nous étudions également une variante du problème avec une classe croissante d'experts.La troisième partie porte sur des problèmes de régression et d'estimation de densité. Notre première contribution principale est une analyse minimax détaillée de la prédiction linéaire avec design aléatoire, en fonction de la loi des variables prédictives; nos bornes supérieures reposent sur un contrôle de la queue inférieure de matrices de covariance empiriques. Notre seconde contribution principale est l'introduction d'une procédure générale pour l'estimation de densité avec perte logarithmique, qui admet des bornes optimales d'excès de risque ne se dégradant pas dans le cas mal spécifié. Dans le cas de la régression logistique, cette procédure admet une forme simple et atteint des vitesses de convergence rapides inaccessibles aux estimateurs de type plug-in.