Thèse soutenue

Gérer les données manquantes MNAR et hétérogènes dans différents scénarios d’apprentissage statistique : imputation basée sur des modèles à faible rang, régression linéaire en ligne avec un algorithme de descente de gradient stochastique, et partitionnement de données avec des modèles de mélange

FR  |  
EN
Auteur / Autrice : Aude Sportisse
Direction : Arnaud GuyaderClaire BoyerJulie Josse
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 29/06/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury : Président / Présidente : Gérard Biau
Examinateurs / Examinatrices : Charles Bouveyron, Olga Klopp
Rapporteur / Rapporteuse : Julien Chiquet, Jes Frellsen

Résumé

FR  |  
EN

En réponse à la collecte croissante de données, l'analyse statistique représente une réelle opportunité pour les applications, nombreuses et variées. Néanmoins, l'une des ironies du “big data” est que les données manquantes sont inévitables. Le but de cette thèse est de proposer de nouvelles méthodes statistiques pour traiter les valeurs manquantes dans plusieurs cas d'apprentissage supervisé et non supervisé, en particulier lorsque les données sont Missing Not At Random (MNAR), c.à.d. lorsque le manque des valeurs dépend des valeurs manquantes elles-mêmes et des valeurs d'autres variables. Une attention particulière est donnée à l'élaboration de méthodes aux fondements, à la fois théoriques et pratiques, solides, répondant aux besoins concrets posés par les applications. Nous étudions d’abord les modèles à faible rang avec effets fixes ou aléatoires lorsqu’il y a des valeurs MNAR sur plusieurs variables. Puis, nous abordons le cas de la régression linéaire en ligne avec des covariables manquantes en utilisant un algorithme de gradient stochastique moyenné débiaisé, ainsi que le cas du partitionnement de données à l’aide de modèles de mélange lorsqu’il y a des valeurs MNAR. Enfin, nous présentons notre plateforme collaborative sur le traitement des valeurs manquantes, pensée pour permettre la reproductibilité de la recherche et regroupant des méthodes classiques et récentes.