Handling heterogeneous and MNAR missing data in statistical learning frameworks : imputation based on low-rank models, online linear regression with SGD, and model-based clustering

Aude Sportisse

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Gérer les données manquantes MNAR et hétérogènes dans différents scénarios d’apprentissage statistique : imputation basée sur des modèles à faible rang, régression linéaire en ligne avec un algorithme de descente de gradient stochastique, et partitionnement de données avec des modèles de mélange

FR |

EN

Auteur / Autrice :	Aude Sportisse
Direction :	Arnaud Guyader, Claire Boyer, Julie Josse
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques
Date :	Soutenance le 29/06/2021
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....)
Jury :	Président / Présidente : Gérard Biau
	Examinateurs / Examinatrices : Charles Bouveyron, Olga Klopp
	Rapporteurs / Rapporteuses : Julien Chiquet, Jes Frellsen

Mots clés

FR |

EN

Mots clés contrôlés

Optimisation mathématique

Algorithmes EM

Observations manquantes (statistique)

Apprentissage automatique

Mots clés libres

Données manquantes informatives

Apprentissage statistique

Régression linéaire en ligne

Modèles graphiques

Résumé

FR |

EN

En réponse à la collecte croissante de données, l'analyse statistique représente une réelle opportunité pour les applications, nombreuses et variées. Néanmoins, l'une des ironies du “big data” est que les données manquantes sont inévitables. Le but de cette thèse est de proposer de nouvelles méthodes statistiques pour traiter les valeurs manquantes dans plusieurs cas d'apprentissage supervisé et non supervisé, en particulier lorsque les données sont Missing Not At Random (MNAR), c.à.d. lorsque le manque des valeurs dépend des valeurs manquantes elles-mêmes et des valeurs d'autres variables. Une attention particulière est donnée à l'élaboration de méthodes aux fondements, à la fois théoriques et pratiques, solides, répondant aux besoins concrets posés par les applications. Nous étudions d’abord les modèles à faible rang avec effets fixes ou aléatoires lorsqu’il y a des valeurs MNAR sur plusieurs variables. Puis, nous abordons le cas de la régression linéaire en ligne avec des covariables manquantes en utilisant un algorithme de gradient stochastique moyenné débiaisé, ainsi que le cas du partitionnement de données à l’aide de modèles de mélange lorsqu’il y a des valeurs MNAR. Enfin, nous présentons notre plateforme collaborative sur le traitement des valeurs manquantes, pensée pour permettre la reproductibilité de la recherche et regroupant des méthodes classiques et récentes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses