Thèse soutenue

Rééchantillonnage et sélection de modèles optimale pour l'estimation de la densité

FR  |  
EN
Auteur / Autrice : Matthieu Lerasle
Direction : Béatrice LaurentClémentine Prieur
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance en 2009
Etablissement(s) : Toulouse, INSA

Résumé

FR

Le principal objectif de cette thèse est d’étudier deux méthodes de calibration automatique de la pénalité pour la sélection de modèle. L’avantage de ces méthodes est double, d’une part, elles sont toujours implémentables, elles ont mˆeme souvent été utilisées dans des problèmes pratiques avec succès, d’autre part, elles sont optimales puisqu’elles permettent de sélectionner asymptotiquement le meilleur modèle. Il existe d’autres méthodes de pénalisation calculables en pratique, quand les données sont indépendantes. Néanmoins, en dehors des collections de modèles très réguliers, ces pénalités sont très pessimistes, voire dépendent de constantes inconnues comme la norme sup de la densité. De plus, quand on veut utiliser les preuves classiques pour des données mélangeantes, les pénalités que l’on obtient dépendent toujours de constantes inconnues de l’utilisateur (voir le chapitre 3). Le chapitre 2 étudie l’heuristique de pente et les pénalités par rééchantillonnage dans le cas de données indépendantes. On donne une condition suffisante pour que l’heuristique de la pente soit optimale, en utilisant l’inégalité de concentration de Talagrand pour le supremum du processus empirique. On étudie aussi l’approximation du processus empirique par sa version rééchantillonnée et on en déduit que la même condition suffit à garantir l’optimalité des méthodes par rééchantillonnage. Le chapitre 3 est consacré à l’étude de pénalités classiques quand les observations sont mélangeantes. On montre des inégalités oracles et l’adaptativité de l’estimateur sélectionné à la régularité de la densité. La pénalité dépend des coefficients de mélange qui peuvent parfois être évalués. Le chapitre 4 étend les résultats du chapitre 2 au cas de données mélangeantes. On montre ainsi que les méthodes de la pente et bootstrap sont également optimales dans ce cas, sous le même type de conditions. Ces nouvelles pénalités sont toujours calculables en pratique et le modèle sélectionné est asymptotiquement un oracle, ce qui améliore beaucoup les résultats du chapitre 3. Le chapitre 5 traite du problème des régions de confiance adaptatives. Contrairement au cas de l’estimation, cette adaptation n’est que très rarement possible. Quand elle l’est, nous construisons des régions adaptatives. En particulier, on améliore quelques résultats de concentration du chapitre 2 lorsque les données sont à valeurs réelles, notamment ceux des U-statistiques.