Model selection in non gaussian regression : applications to variable selection and accelerating life test
Auteur / Autrice : | Marie Sauvé |
Direction : | Pascal Massart |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance en 2006 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | Autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) |
Mots clés
Résumé
Cette thèse traite de la sélection de modèles en régression non gaussienne. Notre but est d’obtenir des informations sur une fonction s dont on n’observe qu’un certain nombre de valeurs perturbées par des bruits non nécessairement gaussiens. Dans un premier temps, nous considérons des modèles de fonctions constantes par morceaux associés à une collection de partitions de l’ensemble de définition de s. Nous déterminons un critère des moindres carrés pénalisés qui permet de sélectionner une partition dont l’estimateur associé (de type regressogramme) vérifie une inégalité de type oracle. La sélection d’un modèle de fonctions constantes par morceaux ne conduit pas en général à une bonne estimation de s, mais permet notamment de détecter les ruptures de s. Nous proposons aussi une méthode non linéaire de sélection de variables qui repose sur l’application de plusieurs procédures CART et sur la sélection d’un modèle de fonctions constantes par morceaux. Dans un deuxième temps, nous considérons des modèles de fonctions polynomiales par morceaux, dont les qualités d’approximation sont meilleures. L’objectif est d’estimer s par un polynôme par morceaux dont le degré peut varier d’un morceau à l’autre. Nous déterminons un critère pénalisé qui sélectionne une partition et une série de degrés dont l’estimateur polynomial par morceaux associé vérifie une inégalité de type oracle. Nous appliquons aussi ce résultat pour déterminer les ruptures d’une fonction affine par morceaux. Ce dernier travail est motivé par la détermination d’un intervalle de stress convenable pour les tests de survie accélérés.