Thèse soutenue

Quelques contributions à la sélection de variables et aux tests non-paramétriques

FR  |  
EN
Auteur / Autrice : Laëtitia Comminges
Direction : Arnak S. Dalalyan
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 12/12/2012
Etablissement(s) : Paris Est
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-2015)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - IMAGINE
Jury : Président / Présidente : Alexandre Tsybakov
Examinateurs / Examinatrices : Arnak S. Dalalyan, Cristina Butucea
Rapporteurs / Rapporteuses : Béatrice Laurent, Christophe Pouet

Résumé

FR  |  
EN

Les données du monde réel sont souvent de très grande dimension, faisant intervenir un grand nombre de variables non pertinentes ou redondantes. La sélection de variables est donc utile dans ce cadre. D'abord, on considère la sélection de variables dans le modèle de régression quand le nombre de variables est très grand. En particulier on traite le cas où le nombre de variables pertinentes est bien plus petit que la dimension ambiante. Sans supposer aucune forme paramétrique pour la fonction de régression, on obtient des conditions minimales permettant de retrouver l'ensemble des variables pertinentes. Ces conditions relient la dimension intrinsèque à la dimension ambiante et la taille de l'échantillon. Ensuite, on considère le problème du test d'une hypothèse nulle composite sous un modèle de régression non paramétrique multi varié. Pour une fonctionnelle quadratique donnée Q, l'hypothèse nulle correspond au fait que la fonction f satisfait la contrainte Q[f] = 0, tandis que l'alternative correspond aux fonctions pour lesquelles |Q[f]| est minorée par une constante strictement positive. On fournit des taux minimax de test et les constantes de séparation exactes ainsi qu'une procédure optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On peut utiliser ces résultats pour tester la pertinence d'une ou plusieurs variables explicatives. L'étude des taux minimax pour les fonctionnelles quadratiques diagonales qui ne sont ni positives ni négatives, fait apparaître deux régimes différents : un régime « régulier » et un régime « irrégulier ». On applique ceci au test de l'égalité des normes de deux fonctions observées dans des environnements bruités