Robustesse et dimensions des modèles de régression PLS en cas de données incomplètes

Titin Agustin Nengsih

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Robustesse et dimensions des modèles de régression PLS en cas de données incomplètes

FR |

EN

Auteur / Autrice :	Titin Agustin Nengsih
Direction :	Nicolas Meyer, Frédéric Bertrand
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques
Date :	Soutenance le 16/03/2020
Etablissement(s) :	Strasbourg
Ecole(s) doctorale(s) :	École doctorale des Sciences de la vie et de la santé (Strasbourg ; 2000-....)
Partenaire(s) de recherche :	Laboratoire : Institut de recherche mathématique avancée (Strasbourg)
Jury :	Président / Présidente : Erik-André Sauleau
	Examinateurs / Examinatrices : Nicolas Meyer, Frédéric Bertrand, Erik-André Sauleau, Anne Gégout-Petit, Robert Sabatier, Nicolas Jay, Myriam Maumy
	Rapporteurs / Rapporteuses : Anne Gégout-Petit, Robert Sabatier

Mots clés

FR |

EN

Mots clés contrôlés

Algorithmes

Méthode de traitement de données par groupe

Analyse des données

Analyse de régression

Méthodologie

Biométrie

Mots clés libres

Régression PLS

Nombre de composantes

Données manquantes

NIPALS

Résumé

FR |

EN

Dans la recherche et dans le développement, les données manquantes sont un réel problème pour le praticien. Plusieurs approches statistiques ont été développées pour traiter des données manquantes. Les techniques d’imputation consistent à remplacer les données manquantes par une valeur générée au cours d'un processus d’imputation. La régression PLS est un modèle multivarié pour lequel deux algorithmes (SIMPLS ou NIPALS) existent et qui a été largement utilisée en raison de son efficacité dans l'analyse des relations entre plusieurs composantes. L’algorithme NIPALS a l’avantage de pouvoir estimer les composantes même lorsque les données sont incomplètes, dans la mesure où chaque composante est estimée à partir des seules données complètes, de manière itérative sur chaque dimension du jeu de données et ceci, sans devoir recourir à l’imputation des éventuelles donnés manquantes. Bien qu’il soit désormais considéré comme une méthode de référence dans le traitement des données incomplètes, les performances de l’algorithme NIPALS sont mal connues dans ce cas des données incomplètes. La détermination du nombre de composantes construites lors de la régression PLS ne tient pas compte ni du type de manquant ni de la proportion de données manquantes dans le jeu de données. Pourtant il s’agit d’un point essentiel pour établir des modèles de régression fiables ainsi que pour sélectionner correctement des prédicteurs. Dans la détermination du nombre de composantes, plusieurs critères ont été étudiés. Nous avons comparé les performances des critères sur un jeu de données incomplet et sur un jeu de données imputé en utilisant trois méthodes d’imputation : MICE, l’imputation KNN et l’imputation SVD. Nous avons testé plusieurs critères sous différentes hypothèses de type et de proportion de données manquantes et sur des jeux de données de différentes dimensions.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Robustesse et dimensions des modèles de régression PLS en cas de données incomplètes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Robustesse et dimensions des modèles de régression PLS en cas de données incomplètes

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses