Contrôle des fausses découvertes lors de la sélection de variables en grande dimension

Jean-Michel Bécu

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Contrôle des fausses découvertes lors de la sélection de variables en grande dimension

FR |

EN

Auteur / Autrice :	Jean-Michel Bécu
Direction :	Christophe Ambroise, Yves Grandvalet
Type :	Thèse de doctorat
Discipline(s) :	Technologies de l’Information et des Systèmes
Date :	Soutenance le 10/03/2016
Etablissement(s) :	Compiègne
Ecole(s) doctorale(s) :	École doctorale Sciences pour l'ingénieur (Compiègne)
Partenaire(s) de recherche :	Laboratoire : Heuristique et Diagnostic des Systèmes Complexes [Compiègne] / Heudiasyc

Mots clés

FR |

EN

Mots clés contrôlés

Incertitude (théorie de l'information)

Rééchantillonnage (statistique)

Analyse de régression

Ridge régression (statistique)

Modèles linéaires (statistique)

Variables (mathématiques)

Mots clés libres

Sélection de variables

Grande dimension

Taux de fausses découvertes

Régression linéaire

Régression Lasso

Méthodes à deux étapes

Résumé

FR |

EN

Dans le cadre de la régression, de nombreuses études s’intéressent au problème dit de la grande dimension, où le nombre de variables explicatives mesurées sur chaque échantillon est beaucoup plus grand que le nombre d’échantillons. Si la sélection de variables est une question classique, les méthodes usuelles ne s’appliquent pas dans le cadre de la grande dimension. Ainsi, dans ce manuscrit, nous présentons la transposition de tests statistiques classiques à la grande dimension. Ces tests sont construits sur des estimateurs des coefficients de régression produits par des approches de régressions linéaires pénalisées, applicables dans le cadre de la grande dimension. L’objectif principal des tests que nous proposons consiste à contrôler le taux de fausses découvertes. La première contribution de ce manuscrit répond à un problème de quantification de l’incertitude sur les coefficients de régression réalisée sur la base de la régression Ridge, qui pénalise les coefficients de régression par leur norme l2, dans le cadre de la grande dimension. Nous y proposons un test statistique basé sur le rééchantillonage. La seconde contribution porte sur une approche de sélection en deux étapes : une première étape de criblage des variables, basée sur la régression parcimonieuse Lasso précède l’étape de sélection proprement dite, où la pertinence des variables pré-sélectionnées est testée. Les tests sont construits sur l’estimateur de la régression Ridge adaptive, dont la pénalité est construite à partir des coefficients de régression du Lasso. Une dernière contribution consiste à transposer cette approche à la sélection de groupes de variables.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Contrôle des fausses découvertes lors de la sélection de variables en grande dimension

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Contrôle des fausses découvertes lors de la sélection de variables en grande dimension

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses