Sélection d'histogrammes ou de modèles exponentiels de polynômes par morceaux à l'aide d'un critère de type Akaike
Auteur / Autrice : | GWENAELLE CASTELLAN |
Direction : | Pascal Massart |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences et techniques communes |
Date : | Soutenance en 2000 |
Etablissement(s) : | Paris 11 |
Résumé
L'objet de cette these est la validation du critere d'akaike eventuellement modifie pour selectionner un histogramme ou un modele exponentiel de polynomes par morceaux. Soit $$ m, m , m n une collection d'estimateurs du maximum de vraisemblance d'une densite s issue d'un echantillon de n variables aleatoires independantes et identiquement distribuees, sur une famille de modeles s m, m , m n. On choisit un modele parmi cette collection en minimisant le critere - p n(log $$ m) + pen n(m) en m , m n (p n est la mesure empirique et pen n est une penalite dependant du modele s m). Ceci conduit a l'estimateur du maximum de vraisemblance penalise $$ = $$ $$. Le but est de comparer le risque r(s, $$) de l'estimateur $$ au plus petit des risques inf m , m n r(s, $$ m). Dans la premiere partie, nous etudions la collection des estimateurs par histogramme associee a une famille de partitions m n. Nous demontrons que, si c 1 > 1/2, alors toute penalite de la forme pen n(m) = c 1d m(1 + l m) 2/n ou d m = |m| 1, et l m est un terme correctif tenant compte de la complexite de m n, fournit une borne de risque non-asymptotique pour l'estimateur penalise correspondant. Ainsi, lorsque la famille de partitions est formee de partitions regulieres sur 0,1, nous validons le critere d'akaike (1973), correspondant a pen n(m) = d m/n, et nous mettons en evidence l'interet d'une correction de second ordre ameliorant ce critere non-asymptotiquement. Pour une famille de partitions irregulieres sur 0,1, au contraire, il est necessaire de prendre une penalite plus lourde : pen n(m) = d m/n log cd m/n, pour obtenir une borne de risque non ameliorable d'un point de vue minimaux. Dans la seconde partie, nous generalisons une partie des resultats sur les histogrammes aux modeles exponentiels de polynomes par morceaux.