Gérer les données manquantes MNAR et hétérogènes dans différents scénarios d’apprentissage statistique : imputation basée sur des modèles à faible rang, régression linéaire en ligne avec un algorithme de descente de gradient stochastique, et partitionnement de données avec des modèles de mélange
Auteur / Autrice : | Aude Sportisse |
Direction : | Arnaud Guyader, Claire Boyer, Julie Josse |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 29/06/2021 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....) |
Jury : | Président / Présidente : Gérard Biau |
Examinateurs / Examinatrices : Charles Bouveyron, Olga Klopp | |
Rapporteur / Rapporteuse : Julien Chiquet, Jes Frellsen |
Mots clés
Mots clés contrôlés
Résumé
En réponse à la collecte croissante de données, l'analyse statistique représente une réelle opportunité pour les applications, nombreuses et variées. Néanmoins, l'une des ironies du “big data” est que les données manquantes sont inévitables. Le but de cette thèse est de proposer de nouvelles méthodes statistiques pour traiter les valeurs manquantes dans plusieurs cas d'apprentissage supervisé et non supervisé, en particulier lorsque les données sont Missing Not At Random (MNAR), c.à.d. lorsque le manque des valeurs dépend des valeurs manquantes elles-mêmes et des valeurs d'autres variables. Une attention particulière est donnée à l'élaboration de méthodes aux fondements, à la fois théoriques et pratiques, solides, répondant aux besoins concrets posés par les applications. Nous étudions d’abord les modèles à faible rang avec effets fixes ou aléatoires lorsqu’il y a des valeurs MNAR sur plusieurs variables. Puis, nous abordons le cas de la régression linéaire en ligne avec des covariables manquantes en utilisant un algorithme de gradient stochastique moyenné débiaisé, ainsi que le cas du partitionnement de données à l’aide de modèles de mélange lorsqu’il y a des valeurs MNAR. Enfin, nous présentons notre plateforme collaborative sur le traitement des valeurs manquantes, pensée pour permettre la reproductibilité de la recherche et regroupant des méthodes classiques et récentes.