À propos de la fonction de lien dans les modèles linéaires généralisés pour réponses catégorielles
Auteur / Autrice : | Yinneth Leon velasco |
Direction : | Catherine Trottier |
Type : | Thèse de doctorat |
Discipline(s) : | Biostatistique |
Date : | Soutenance le 07/06/2022 |
Etablissement(s) : | Université de Montpellier (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Institut Montpelliérain Alexander Grothendieck (Montpellier ; 2003-....) |
Jury : | Président / Présidente : Jean-Noël Bacro |
Examinateurs / Examinatrices : Catherine Trottier, Jean-Noël Bacro, Julien Jacques, Stéphane Robin, Sabrina Giordano, Jean Peyhardi | |
Rapporteurs / Rapporteuses : Julien Jacques, Stéphane Robin |
Mots clés
Résumé
Les modèles logit, logit à côtes proportionnelles et multinomial logit sont les plus classiques pour modéliser respectivement les réponses binaires, ordinales et nominales.Même si ces modèles ont des propriétés remarquables, ils sont sensibles à la présence de valeurs aberrantes, et ne permettent pas de tenir compte de caractéristiques spécifiques aux données catégorielles, comme le type d'ordre ou les possibles groupements de catégories. La fonction de lien est une composante clé des GLMs pour prendre en compte ces particularités. L'objet de cette thèse est précisément l'étude de cette fonction de lien sous diverses formes pour les modèles de régression catégorielle. Nous nous intéressons d'abord à la robustesse de la fonction de lien Student dans le cas d'observations binaires selon différentes situations de séparation des données. Avec plus de deux catégories, nous proposons ensuite, dans le cadre d'un package R unifié, un guide pratique permettant de choisir le modèle ordinal le plus adapté selon la nature des données et les propriétés des modèles. Enfin, lorsque l'on suppose une structure hiérarchique binaire des catégories, nous définissons une méthodologie en deux étapes pour l'inférer. La première étape construit un arbre de partition en se basant sur l'algorithme de classification ascendante hiérarchique. La deuxième consiste en un algorithme de recherche basé sur des rotations pour visiter efficacement l'espace des arbres de partition. De manière générale, cette thèse vise à explorer, populariser et étendre l'ensemble des modèles de régression pour données catégorielles.