Thèse soutenue

Régression linéaire généralisée sur composantes supervisées pour la modélisation jointe des réponses

FR  |  
EN
Auteur / Autrice : Julien Gibaud
Direction : Catherine Trottier
Type : Thèse de doctorat
Discipline(s) : Biostatistique
Date : Soutenance le 09/12/2022
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut Montpelliérain Alexander Grothendieck (Montpellier ; 2003-....)
Jury : Président / Présidente : Jean-Noël Bacro
Examinateurs / Examinatrices : Catherine Trottier, Jean-Noël Bacro, Jérôme Saracco, David I. Warton, Xavier Bry, Marie Chavent, Fabien Laroche
Rapporteurs / Rapporteuses : Jérôme Saracco, David I. Warton

Résumé

FR  |  
EN

Dans cette thèse, une matrice réponse est supposée dépendre d'un ensemble de variables explicatives et d'un ensemble de covariables additionnelles. Les variables explicatives sont supposées nombreuses et redondantes, demandant ainsi réduction de dimension et régularisation. Au contraire, les covariables additionnelles contiennent quelques variables sélectionnées qui sont forcées dans le modèle de régression sans subir de régularisation. À l'origine, la Régression Linéaire Généralisée sur Composantes Supervisées (SCGLR) et son extension au multi-tableaux, THEME-SCGLR, sont créés pour extraire dans les variables explicatives plusieurs composantes conjointement supervisées par l'ensemble des réponses. Cependant, cette méthodologie a toujours des limitations que nous proposons de surpasser dans cette thèse. La première limitation vient de l'hypothèse que toutes les réponses sont prédites par le même espace explicatif. Cependant, dans de nombreuses situations pratiques, il est peu probable que de grands ensembles de réponses dépendent exactement des mêmes dimensions explicatives. Comme deuxième limitation, les précédents travaux impliquant SCGLR supposent que les réponses sont indépendantes conditionnellement aux variables explicatives. Encore une fois, cela est peu probable dans la pratique, spécialement dans des situations telles que l'écologie où une part non-négligeable des variables explicatives ne peuvent pas être mesurées. Pour surpasser la première limitation, nous supposons que les réponses sont partitionnées en plusieurs groupes inconnus. Nous supposons que les réponses dans chaque groupe sont prédites par un nombre approprié de composantes supervisées orthogonales spécifiques dans les variables explicatives. Nous développons une extension de SCGLR basée sur un modèle de mélange fini des réponses. Le deuxième travail relâche l'hypothèse d'indépendance conditionnelle. Comme pour THEME-SCGLR, la matrice réponse est modélisée par un partitionnement thématique des variables explicatives, nommés ``thèmes''. Ainsi, la régularisation est effectuée afin de chercher, dans chacun des thèmes, un nombre approprié de composantes qui contribuent à la fois à la prédiction de la matrice réponse et à la capture d'informations pertinentes des thèmes. Un ensemble de quelques facteurs latents modélise la covariance ``résiduelle'' des réponses conditionnellement aux composantes. Les approches présentées dans ce travail sont testées sur de nombreux schémas de simulation et ensuite appliquées à des jeux de données issus de l'écologie.