Relation entre tableaux de données : exploration et prédiction
Auteur / Autrice : | Angélina El Ghaziri |
Direction : | El Mostafa Qannari |
Type : | Thèse de doctorat |
Discipline(s) : | Statistique appliquée : sensométrie et chimiométrie |
Date : | Soutenance le 20/10/2016 |
Etablissement(s) : | Nantes, Ecole nationale vétérinaire |
Ecole(s) doctorale(s) : | École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer (Angers) |
Mots clés
Résumé
La recherche développée dans le cadre de cette thèse aborde différents aspects relevant de l’analyse statistique de données. Dans un premier temps, une analyse de trois indices d’associations entre deux tableaux de données est développée. Par la suite, des stratégies d’analyse liées à la standardisation de tableaux de données avec des applications en analyse en composantes principales (ACP) et en régression, notamment la régression PLS sont présentées. La première stratégie consiste à proposer une standardisation continuum des variables. Une standardisation plus générale est aussi abordée consistant à réduire de manière graduelle non seulement les variances des variables mais également les corrélations entre ces variables. De là, une approche continuum de régression a été élaborée regroupant l’analyse des redondances et la régression PLS. Par ailleurs, cette dernière standardisation a inspiré une démarche de régression biaisée dans le cadre de régression linéaire multiple. Les propriétés d’une telle démarche sont étudiées et les résultats sont comparés à ceux de la régression Ridge. Dans le cadre de l’analyse de plusieurs tableaux de données, une extension de la méthode ComDim pour la situation de K+1 tableaux est développée. Les propriétés de cette méthode, appelée P-ComDim, sont étudiées et comparées à celles de Multiblock PLS. Enfin, la situation où il s’agit d’évaluer l’effet de plusieurs facteurs sur des données multivariées est considérée et une nouvelle stratégie d’analyse est proposée.