Apprentissage statistique pour la détection de données aberrantes et application en santé

Alain Virouleau

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage statistique pour la détection de données aberrantes et application en santé

FR |

EN

Auteur / Autrice :	Alain Virouleau
Direction :	Stéphane Gaïffas, Agathe Guilloux
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques appliquées
Date :	Soutenance le 18/06/2020
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
	Laboratoire : Centre de mathématiques appliquées de l'Ecole polytechnique (Palaiseau ; 1974-....)
Jury :	Président / Présidente : Erwan Le Pennec
	Examinateurs / Examinatrices : Stéphane Gaïffas, Agathe Guilloux, Yohann de Castro, Nathalie Villa-Vialaneix
	Rapporteurs / Rapporteuses : Yohann de Castro, Nathalie Villa-Vialaneix

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Statistique mathématique

Mots clés libres

Tests multiples

Optimisation convexe

Instabilité microsatellitaire

Données aberrantes

Résumé

FR |

EN

Le problème de la détection de données aberrantes et celui de régression robuste dans un contexte de grande dimension est fondamental en statistiques et a de nombreuses applications.Dans la lignée de récents travaux proposant de traiter conjointement ces deux problèmes de régression et de détection, nous considérons dans la première partie de ce travail un modèle linéaire gaussien en grande dimension avec ajout d'un paramètre individuel pour chaque observation.Nous proposons une nouvelle procédure pour simultanément estimer les coefficients de la régression linéaire et les paramètres individuels, en utilisant deux pénalités différentes basées toutes les deux sur une pénalisation convexe l1 ordonnée, nommée SLOPE. Nous faisons l'analyse théorique de ce problème: nous obtenons dans un premier temps une borne supérieure pour l'erreur d'estimation à la fois pour le vecteur des paramètres individuels et pour le vecteur des coefficients de régression. Puis nous obtenons un résultat asymptotique sur le contrôle du taux de fausse découverte et sur la puissance concernant la détection du support du vecteur des paramètres individuels.Nous comparons numériquement notre procédure avec les alternatives les plus récentes, à la fois sur des données simulées et sur des données réelles.La seconde partie de ce travail est motivée par un problème issu de la génétique. Des séquences particulières d'ADN, appelées multi-satellites, sont des indicateurs du développement d'un type de cancer colorectal. Le but est de trouver parmi ces séquences celles qui ont un taux de mutation bien plus élevé (resp. bien moindre) qu'attendu selon les biologistes. Ce problème mène à une modélisation probabiliste non-linéaire et n'entre ainsi pas dans le cadre abordé dans la première partie de cette thèse. Nous traitons ainsi dans cette partie le cas de modèles linéaires généralisés, avec de nouveau des paramètres individuels en plus du prédicteur linéaire, et analysons les propriétés statistiques d'une nouvelle procédure estimant simultanément les coefficients de régression et les paramètres individuels. Nous utilisons de nouveau la pénalisation SLOPE mais nous nous restreignons au cas de la petite dimension. La performance de l'estimateur est mesuré comme dans la première partie en terme d'erreur d'estimation des paramètres et de taux de fausse découverte concernant la recherche du support du vecteur des paramètres individuels.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage statistique pour la détection de données aberrantes et application en santé

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage statistique pour la détection de données aberrantes et application en santé

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses