Auteur / Autrice : | Marius Kwémou Djoukoué |
Direction : | Marie-Luce Taupin, Abdou Kâ Diongue |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 29/09/2014 |
Etablissement(s) : | Evry-Val d'Essonne en cotutelle avec Université de Saint-Louis (Sénégal) |
Ecole(s) doctorale(s) : | École doctorale Sciences et Ingénierie (Evry ; 2008-2015) |
Jury : | Président / Présidente : Elisabeth Gassiat |
Examinateurs / Examinatrices : Jean-Marc Bardet, Jean-Yves Le Hesran, Anne-Sophie Tocquet | |
Rapporteurs / Rapporteuses : Béatrice Laurent, Adeline Leclercq-Samson |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse est consacrée à la sélection de variables ou de modèles en régression logistique. Elle peut-être divisée en deux parties, une partie appliquée et une partie méthodologique. La partie appliquée porte sur l'analyse des données d'une grande enquête socio - épidémiologique dénommée actu-palu. Ces grandes enquêtes socio - épidémiologiques impliquent généralement un nombre considérable de variables explicatives. Le contexte est par nature dit de grande dimension. En raison du fléau de la dimension, le modèle de régression logistique n'est pas directement applicable. Nous procédons en deux étapes, une première étape de réduction du nombre de variables par les méthodes Lasso, Group Lasso et les forêts aléatoires. La deuxième étape consiste à appliquer le modèle logistique au sous-ensemble de variables sélectionné à la première étape. Ces méthodes ont permis de sélectionner les variables pertinentes pour l'identification des foyers à risque d'avoir un épisode fébrile chez un enfant de 2 à 10 ans à Dakar. La partie méthodologique, composée de deux sous-parties, porte sur l'établissement de propriétés techniques d'estimateurs dans le modèle de régression logistique non paramétrique. Ces estimateurs sont obtenus par maximum de vraisemblance pénalisé, dans un cas avec une pénalité de type Lasso ou Group Lasso et dans l'autre cas avec une pénalité de type 1 exposant 0. Dans un premier temps, nous proposons des versions pondérées des estimateurs Lasso et Group Lasso pour le modèle logistique non paramétrique. Nous établissons des inégalités oracles non asymptotiques pour ces estimateurs. Un deuxième ensemble de résultats vise à étendre le principe de sélection de modèle introduit par Birgé et Massart (2001) à la régression logistique. Cette sélection se fait via des critères du maximum de vraisemblance pénalisé. Nous proposons dans ce contexte des critères de sélection de modèle, et nous établissons des inégalités oracles non asymptotiques pour les estimateurs sélectionnés. La pénalité utilisée, dépendant uniquement des données, est calibrée suivant l'idée de l'heuristique de pente. Tous les résultats de la partie méthodologique sont illustrés par des études de simulations numériques.