Thèse soutenue

Bornes de risque, détection de ruptures, boosting : trois thèmes statistiques autour de CART en régression

FR
Auteur / Autrice : Servane Gey
Direction : Jean-Michel Poggi
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance en 2002
Etablissement(s) : Paris 11

Résumé

FR  |  
EN

Cette thèse est consacrée à trois thèmes statistiques autour de la méthode CART (Classifiation And Regression Trees) proposée par Breiman et al. En 1984. CART est une méthode d'estimation non-linéaire pour les problèmes de classification et de régression. Elle permet de construire des estimateurs constants par morceaux sur des partitions obtenues, à partir des données, par des découpes dyadiques récursives de l'ensemble des variables explicatives. Nous nous concentrons sur CART en régression. Après le chapitre 1 présentant l'ensemble de la thèse, nous rappelons dans le chapitre 2 les fondements de CART, dans lequel on procède à la minimisation d'un critère des moindres carrés pénalisé. Les chapitres suivants présentent le travail original de la thèse. Dans le Chapitre 3, le plus théorique, nous justifions le choix du terme de pénalité utilisé dans le critère via l'obtention de bornes de risque non-asymptotiques pour les estimateurs fournis par CART. Dans le chapitre 4, pour la détection de ruptures dans la moyenne d'un signal gaussien de grande taille, nous proposons un algorithme rapide combinant CART (non-exhaustif) avec une méthode de recherche exhaustive: CART fournit d'abord un ensemble de ruptures, dans lequel on sélectionne ensuite de bons candidats par la recherche exhaustive. Dans le chapitre 5, nous appliquons à CART l'algorithme Boosting (Drucker 1997), basé sur des méthodes de rééchantillonnage adaptatif. Nous mettons en évidence que cet algorithme se comporte, sur des données tant simulées que réelles, de façon semblable au Boosting en classification, celui-ci ayant déjà été analysé (Breiman 1998). L'une des propriétés essentielles pour que de tels schémas de rééchantillonnage fonctionnent est l'instabilité de CART. Nous définissons donc deux indices d'instabilité, basés sur le Bagging (Breiman 1996), permettant d'éclairer les performances du Boosting et d'étudier divers problèmes comme par exemple la détection des valeurs aberrantes.