Thèse soutenue

Contribution à la classification de variables dans les modèles de régression en grande dimension

FR  |  
EN
Auteur / Autrice : Loïc Yengo
Direction : Christophe BiernackiJulien Jacques
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 28/05/2014
Etablissement(s) : Lille 1
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur (Lille)
Partenaire(s) de recherche : Laboratoire : Laboratoire Paul Painlevé

Résumé

FR  |  
EN

Cette thèse propose une contribution originale au domaine de la classification de variables en régression linéaire. Cette contribution se base sur une modélisation hiérarchique des coefficients de régression. Cette modélisation permet de considérer ces derniers comme des variables aléatoires distribuées selon un mélange de lois Gaussiennes ayant des centres différents mais des variances égales. Nous montrons dans cette thèse que l'algorithme EM, communément utilisé pour estimer les paramètres d'un modèle hiérarchique ne peut s'appliquer. En effet, l'étape E de l'algorithme n'est pas explicite pour notre modèle.Nous avons donc proposé une approche plus efficace pour l'estimation des paramètres grâce à l'utilisation de l'algorithme SEM-Gibbs. En plus de cette amélioration computationnelle, nous avons introduit une contrainte dans le modèle pour permettre d'effectuer une sélection de variables simultanément. Notre modèle présente de très bonnes qualités prédictives relativement aux approches classiques pour la réduction de la dimension en régression linéaire. Cette thèse présente aussi une extension de notre méthodologie dans le cadre de la régression Probit pour données binaires. Notre modèle modèle a de plus été généralisé en relâchant l'hypothèse de l'égalité des variances pour les composantes du mélange Gaussien. Les performances de ce modèle généralisé ont été comparées à celles du modèle initial à travers différents scénarios de simulations. Ce travail de recherche a conduit au développement du package R clere. Ce dernier package met en œuvre tous les algorithmes décrits dans cette thèse.