Analyse supervisée multibloc en grande dimension

Hadrien Lorenzo

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyse supervisée multibloc en grande dimension

FR |

EN

Auteur / Autrice :	Hadrien Lorenzo
Direction :	Rodolphe Thiébaut, Jérôme Saracco
Type :	Thèse de doctorat
Discipline(s) :	Santé publique Biostatistique
Date :	Soutenance le 27/11/2019
Etablissement(s) :	Bordeaux
Ecole(s) doctorale(s) :	École doctorale Sociétés, politique, santé publique (Talence, Gironde ; 2011-....)
Partenaire(s) de recherche :	Laboratoire : Bordeaux population Health
Jury :	Président / Présidente : Anne Ruiz-Gazen
	Examinateurs / Examinatrices : Jérôme Saracco, François Husson, Anne-Laure Boulesteix, Marie Chavent, Arthur Tenenhaus
	Rapporteurs / Rapporteuses : François Husson, Anne-Laure Boulesteix

Mots clés

FR |

EN

Mots clés contrôlés

Biomathématiques

Analyse de variance

Statistique

Mots clés libres

Apprentissage statistique

Grande dimension

Multibloc

Données manquantes

Sélection de variable

Science des données

Résumé

FR |

EN

L’apprentissage statistique consiste à apprendre à partir de données mesurées dans un échantillon d’individus et cherche à prédire la grandeur d’intérêt chez un nouvel individu. Dans le cas de la vaccination, ou dans d’autres cas dont certains présentés dans ce manuscrit, le nombre de variables mesurées dépasse le nombre d’individus observés, c’est un cas dégénéré d’analyse statistique qui nécessite l’utilisation de méthodes spécifiques. Les propriétés des algorithmes de régularisation permettent de gérer ces cas. Il en existe plusieurs types en fonction de la structure des données considérées et du problème qui sont étudiés. Dans le cas de ce travail, l’objectif principal a été d’utiliser l’information disponible à l’issue de décompositions en éléments propres des matrices de covariances transformées via un opérateur de seuillage doux. Cette solution est particulièrement peu coûteuse en termes de temps de calcul et permet la sélection des variables d’intérêt. Nous nous sommes centrés sur les données qualifiées d’hétérogènes, c’est à dire issues de jeux de données qui sont provenant de sources ou de technologies distinctes. On parle aussi de données multiblocs. Les coûts d’utilisation de certaines technologies pouvant être prohibitifs, il est souvent choisi de ne pas acquérir certaines données sur l’ensemble d’un échantillon, mais seulement sur un sous-échantillon d’étude. Dans ce cas, le jeu de données se retrouve amputé d’une partie non négligeable de l’information. La structure des données associée à ces défauts d’acquisition induit une répartition elle-même multibloc de ces données manquantes, on parle alors de données manquantes par blocs. Le second objectif de notre méthode est de gérer ces données manquantes par blocs en s’appuyant sur l’information à prédire, ceci dans le but de créer un modèle prédictif qui puisse gérer les données manquantes aussi bien pour les données d’entraînement que pour celles de test. Cette méthode emprunte au seuillage doux afin de sélectionner les variables d’intérêt et ne nécessite que deux paramètres à régler qui sont le nombre de composantes et le nombre de variables à sélectionner parmi les covariables. Ce paramétrage est classiquement réalisé par validation croisée. La méthode développée a fait l’objet de simulations la comparant aux principales méthodes existantes. Elle montre d’excellents résultats en prédiction et en termes de temps de calcul. Elle a aussi été appliquée à plusieurs jeux de données

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse supervisée multibloc en grande dimension

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse supervisée multibloc en grande dimension

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses