Thèse soutenue

Régularisation et sélection de variables par le biais de la vraisemblance pénalisée

FR  |  
EN
Auteur / Autrice : Mohammed El anbari
Direction : Gilles Celeux
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 14/12/2011
Etablissement(s) : Paris 11 en cotutelle avec Université Cadi Ayyad (Marrakech, Maroc)
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques de la région Paris-Sud (1992-2015 ; Orsay)
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....)
Jury : Président / Présidente : Idrissi mohamed Tissafi
Examinateurs / Examinatrices : Gilles Celeux, Idrissi mohamed Tissafi, Stéphane Girard, Idir Ouassou, Brahim Ouhbi, Abdallah Mkhadri
Rapporteurs / Rapporteuses : Stéphane Girard, Stéphane Canu

Résumé

FR  |  
EN

Dans cette thèse nous nous intéressons aux problèmes de la sélection de variables en régression linéaire. Ces travaux sont en particulier motivés par les développements récents en génomique, protéomique, imagerie biomédicale, traitement de signal, traitement d’image, en marketing, etc… Nous regardons ce problème selon les deux points de vue fréquentielle et bayésienne.Dans un cadre fréquentiel, nous proposons des méthodes pour faire face au problème de la sélection de variables, dans des situations pour lesquelles le nombre de variables peut être beaucoup plus grand que la taille de l’échantillon, avec présence possible d’une structure supplémentaire entre les variables, telle qu’une forte corrélation ou un certain ordre entre les variables successives. Les performances théoriques sont explorées ; nous montrons que sous certaines conditions de régularité, les méthodes proposées possèdent de bonnes propriétés statistiques, telles que des inégalités de parcimonie, la consistance au niveau de la sélection de variables et la normalité asymptotique.Dans un cadre bayésien, nous proposons une approche globale de la sélection de variables en régression construite sur les lois à priori g de Zellner dans une approche similaire mais non identique à celle de Liang et al. (2008) Notre choix ne nécessite aucune calibration. Nous comparons les approches de régularisation bayésienne et fréquentielle dans un contexte peu informatif où le nombre de variables est presque égal à la taille de l’échantillon.