Régularisation et sélection de variables par le biais de la vraisemblance pénalisée
Auteur / Autrice : | Mohammed El anbari |
Direction : | Gilles Celeux |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 14/12/2011 |
Etablissement(s) : | Paris 11 en cotutelle avec Université Cadi Ayyad (Marrakech, Maroc) |
Ecole(s) doctorale(s) : | Ecole doctorale Mathématiques de la région Paris-Sud (1992-2015 ; Orsay) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) |
Jury : | Président / Présidente : Idrissi mohamed Tissafi |
Examinateurs / Examinatrices : Gilles Celeux, Idrissi mohamed Tissafi, Stéphane Girard, Idir Ouassou, Brahim Ouhbi, Abdallah Mkhadri | |
Rapporteurs / Rapporteuses : Stéphane Girard, Stéphane Canu |
Mots clés
Résumé
Dans cette thèse nous nous intéressons aux problèmes de la sélection de variables en régression linéaire. Ces travaux sont en particulier motivés par les développements récents en génomique, protéomique, imagerie biomédicale, traitement de signal, traitement d’image, en marketing, etc… Nous regardons ce problème selon les deux points de vue fréquentielle et bayésienne.Dans un cadre fréquentiel, nous proposons des méthodes pour faire face au problème de la sélection de variables, dans des situations pour lesquelles le nombre de variables peut être beaucoup plus grand que la taille de l’échantillon, avec présence possible d’une structure supplémentaire entre les variables, telle qu’une forte corrélation ou un certain ordre entre les variables successives. Les performances théoriques sont explorées ; nous montrons que sous certaines conditions de régularité, les méthodes proposées possèdent de bonnes propriétés statistiques, telles que des inégalités de parcimonie, la consistance au niveau de la sélection de variables et la normalité asymptotique.Dans un cadre bayésien, nous proposons une approche globale de la sélection de variables en régression construite sur les lois à priori g de Zellner dans une approche similaire mais non identique à celle de Liang et al. (2008) Notre choix ne nécessite aucune calibration. Nous comparons les approches de régularisation bayésienne et fréquentielle dans un contexte peu informatif où le nombre de variables est presque égal à la taille de l’échantillon.