Méthodes des matrices aléatoires pour l’apprentissage en grandes dimensions
Auteur / Autrice : | Xiaoyi Mai |
Direction : | Romain Couillet, Walid Hachem |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques et Informatique |
Date : | Soutenance le 16/10/2019 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire des signaux et systèmes (Gif-sur-Yvette, Essonne ; 1974-....) |
établissement opérateur d'inscription : CentraleSupélec (2015-....) | |
Jury : | Président / Présidente : Marc Lelarge |
Examinateurs / Examinatrices : Romain Couillet, Walid Hachem, Marc Lelarge, Paulo Gonçalvès, Jean-Philippe Vert, Konstantin Avrachenkov, Julien Perez, Lenka Zdeborová | |
Rapporteurs / Rapporteuses : Paulo Gonçalvès, Jean-Philippe Vert |
Résumé
Le défi du BigData entraîne un besoin pour les algorithmes d'apprentissage automatisé de s'adapter aux données de grande dimension et de devenir plus efficace. Récemment, une nouvelle direction de recherche est apparue qui consiste à analyser les méthodes d’apprentissage dans le régime moderne où le nombre n et la dimension p des données sont grands et du même ordre. Par rapport au régime conventionnel où n>>p, le régime avec n,p sont grands et comparables est particulièrement intéressant, car les performances d’apprentissage dans ce régime restent sensibles à l’ajustement des hyperparamètres, ouvrant ainsi une voie à la compréhension et à l’amélioration des techniques d’apprentissage pour ces données de grande dimension.L'approche technique de cette thèse s'appuie sur des outils avancés de statistiques de grande dimension, nous permettant de mener des analyses allant au-delà de l'état de l’art. La première partie de la thèse est consacrée à l'étude de l'apprentissage semi-supervisé sur des grandes données. Motivés par nos résultats théoriques, nous proposons une alternative supérieure à la méthode semi-supervisée de régularisation laplacienne. Les méthodes avec solutions implicites, comme les SVMs et la régression logistique, sont ensuite étudiées sous des modèles de mélanges réalistes, fournissant des détails exhaustifs sur le mécanisme d'apprentissage. Plusieurs conséquences importantes sont ainsi révélées, dont certaines sont même en contradiction avec la croyance commune.