Robustesse et dimensions des modèles de régression PLS en cas de données incomplètes
Auteur / Autrice : | Titin Agustin Nengsih |
Direction : | Nicolas Meyer, Frédéric Bertrand |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 16/03/2020 |
Etablissement(s) : | Strasbourg |
Ecole(s) doctorale(s) : | École doctorale des Sciences de la vie et de la santé (Strasbourg ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de recherche mathématique avancée (Strasbourg) |
Jury : | Président / Présidente : Erik-André Sauleau |
Examinateurs / Examinatrices : Nicolas Meyer, Frédéric Bertrand, Erik-André Sauleau, Anne Gégout-Petit, Robert Sabatier, Nicolas Jay, Myriam Maumy-Bertrand | |
Rapporteur / Rapporteuse : Anne Gégout-Petit, Robert Sabatier |
Mots clés
Résumé
Dans la recherche et dans le développement, les données manquantes sont un réel problème pour le praticien. Plusieurs approches statistiques ont été développées pour traiter des données manquantes. Les techniques d’imputation consistent à remplacer les données manquantes par une valeur générée au cours d'un processus d’imputation. La régression PLS est un modèle multivarié pour lequel deux algorithmes (SIMPLS ou NIPALS) existent et qui a été largement utilisée en raison de son efficacité dans l'analyse des relations entre plusieurs composantes. L’algorithme NIPALS a l’avantage de pouvoir estimer les composantes même lorsque les données sont incomplètes, dans la mesure où chaque composante est estimée à partir des seules données complètes, de manière itérative sur chaque dimension du jeu de données et ceci, sans devoir recourir à l’imputation des éventuelles donnés manquantes. Bien qu’il soit désormais considéré comme une méthode de référence dans le traitement des données incomplètes, les performances de l’algorithme NIPALS sont mal connues dans ce cas des données incomplètes. La détermination du nombre de composantes construites lors de la régression PLS ne tient pas compte ni du type de manquant ni de la proportion de données manquantes dans le jeu de données. Pourtant il s’agit d’un point essentiel pour établir des modèles de régression fiables ainsi que pour sélectionner correctement des prédicteurs. Dans la détermination du nombre de composantes, plusieurs critères ont été étudiés. Nous avons comparé les performances des critères sur un jeu de données incomplet et sur un jeu de données imputé en utilisant trois méthodes d’imputation : MICE, l’imputation KNN et l’imputation SVD. Nous avons testé plusieurs critères sous différentes hypothèses de type et de proportion de données manquantes et sur des jeux de données de différentes dimensions.