Thèse soutenue

Réduction de dimension en régression logistique, application aux données actu-palu
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Marius Kwémou Djoukoué
Direction : Marie-Luce TaupinAbdou Kâ Diongue
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 29/09/2014
Etablissement(s) : Evry-Val d'Essonne en cotutelle avec Université de Saint-Louis (Sénégal)
Ecole(s) doctorale(s) : École doctorale Sciences et Ingénierie (Evry ; 2008-2015)
Jury : Président / Présidente : Elisabeth Gassiat
Examinateurs / Examinatrices : Jean-Marc Bardet, Jean-Yves Le Hesran, Anne-Sophie Tocquet
Rapporteurs / Rapporteuses : Béatrice Laurent, Adeline Leclercq-Samson

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Cette thèse est consacrée à la sélection de variables ou de modèles en régression logistique. Elle peut-être divisée en deux parties, une partie appliquée et une partie méthodologique. La partie appliquée porte sur l'analyse des données d'une grande enquête socio - épidémiologique dénommée actu-palu. Ces grandes enquêtes socio - épidémiologiques impliquent généralement un nombre considérable de variables explicatives. Le contexte est par nature dit de grande dimension. En raison du fléau de la dimension, le modèle de régression logistique n'est pas directement applicable. Nous procédons en deux étapes, une première étape de réduction du nombre de variables par les méthodes Lasso, Group Lasso et les forêts aléatoires. La deuxième étape consiste à appliquer le modèle logistique au sous-ensemble de variables sélectionné à la première étape. Ces méthodes ont permis de sélectionner les variables pertinentes pour l'identification des foyers à risque d'avoir un épisode fébrile chez un enfant de 2 à 10 ans à Dakar. La partie méthodologique, composée de deux sous-parties, porte sur l'établissement de propriétés techniques d'estimateurs dans le modèle de régression logistique non paramétrique. Ces estimateurs sont obtenus par maximum de vraisemblance pénalisé, dans un cas avec une pénalité de type Lasso ou Group Lasso et dans l'autre cas avec une pénalité de type 1 exposant 0. Dans un premier temps, nous proposons des versions pondérées des estimateurs Lasso et Group Lasso pour le modèle logistique non paramétrique. Nous établissons des inégalités oracles non asymptotiques pour ces estimateurs. Un deuxième ensemble de résultats vise à étendre le principe de sélection de modèle introduit par Birgé et Massart (2001) à la régression logistique. Cette sélection se fait via des critères du maximum de vraisemblance pénalisé. Nous proposons dans ce contexte des critères de sélection de modèle, et nous établissons des inégalités oracles non asymptotiques pour les estimateurs sélectionnés. La pénalité utilisée, dépendant uniquement des données, est calibrée suivant l'idée de l'heuristique de pente. Tous les résultats de la partie méthodologique sont illustrés par des études de simulations numériques.