Réduction de jeux de données pour l'apprentissage statistique large échelle
Auteur / Autrice : | Eyal Vayness |
Direction : | Etienne Roquain, Olivier Fercoq |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques |
Date : | Inscription en doctorat le 01/11/2024 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Probabilités, Statistique et Modélisation |
Mots clés
Résumé
L'explosion de la quantité de données disponibles dans de nombreux domaines tels que la recherche médicale et la physique enjoint à repenser les méthodes d'apprentissage statistique traditionnel. Ceci est justifié d'une part par la limitation des capacités de calcul disponibles dans les instituts de recherche, d'autre part par les enjeux environnementaux et éthiques liés à l'utilisation de données massives. Dans ce cadre, le présent projet de recherche vise à étudier des méthodes de réduction de jeux de données, en particulier de sous-échantillonnage non-uniforme, garantissant l'optimalité (au sens d'un critère bien choisi) de l'estimateur construit. Le travail consistera à faire progresser l'état de l'art dans ce domaine en portant par exemple sur l'étude des méthodes de sous-échantillonnage asymptotique pour les prédicteurs non-linéaires à noyau et pour l'apprentissage non-supervisée, l'intégration de contraintes d'équité aux méthodes de sous-échantillonnage, l'analyse non-asymptotique du problème d'optimisation dual fondé sur la technique de variable screening et la détermination d'un schéma de sous-échantillonnage optimal au sens de la prédiction conformelle.