Apprentissage statistique pour la détection de données aberrantes et application en santé

par Alain Virouleau

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Stéphane Gaïffas et de Agathe Guilloux.

Le président du jury était Erwan Le Pennec.

Le jury était composé de Stéphane Gaïffas, Agathe Guilloux, Yohann de Castro, Nathalie Villa-Vialaneix.

Les rapporteurs étaient Yohann de Castro, Nathalie Villa-Vialaneix.


  • Résumé

    Le problème de la détection de données aberrantes et celui de régression robuste dans un contexte de grande dimension est fondamental en statistiques et a de nombreuses applications.Dans la lignée de récents travaux proposant de traiter conjointement ces deux problèmes de régression et de détection, nous considérons dans la première partie de ce travail un modèle linéaire gaussien en grande dimension avec ajout d'un paramètre individuel pour chaque observation.Nous proposons une nouvelle procédure pour simultanément estimer les coefficients de la régression linéaire et les paramètres individuels, en utilisant deux pénalités différentes basées toutes les deux sur une pénalisation convexe l1 ordonnée, nommée SLOPE. Nous faisons l'analyse théorique de ce problème: nous obtenons dans un premier temps une borne supérieure pour l'erreur d'estimation à la fois pour le vecteur des paramètres individuels et pour le vecteur des coefficients de régression. Puis nous obtenons un résultat asymptotique sur le contrôle du taux de fausse découverte et sur la puissance concernant la détection du support du vecteur des paramètres individuels.Nous comparons numériquement notre procédure avec les alternatives les plus récentes, à la fois sur des données simulées et sur des données réelles.La seconde partie de ce travail est motivée par un problème issu de la génétique. Des séquences particulières d'ADN, appelées multi-satellites, sont des indicateurs du développement d'un type de cancer colorectal. Le but est de trouver parmi ces séquences celles qui ont un taux de mutation bien plus élevé (resp. bien moindre) qu'attendu selon les biologistes. Ce problème mène à une modélisation probabiliste non-linéaire et n'entre ainsi pas dans le cadre abordé dans la première partie de cette thèse. Nous traitons ainsi dans cette partie le cas de modèles linéaires généralisés, avec de nouveau des paramètres individuels en plus du prédicteur linéaire, et analysons les propriétés statistiques d'une nouvelle procédure estimant simultanément les coefficients de régression et les paramètres individuels. Nous utilisons de nouveau la pénalisation SLOPE mais nous nous restreignons au cas de la petite dimension. La performance de l'estimateur est mesuré comme dans la première partie en terme d'erreur d'estimation des paramètres et de taux de fausse découverte concernant la recherche du support du vecteur des paramètres individuels.

  • Titre traduit

    Machine Learning and Big Data for outlier detection, and applications


  • Résumé

    The problems of outliers detection and robust regression in a high-dimensional setting are fundamental in statistics, and have numerous applications.Following a recent set of works providing methods for simultaneous robust regression and outliers detection,we consider in a first part a model of linear regression with individual intercepts, in a high-dimensional setting.We introduce a new procedure for simultaneous estimation of the linear regression coefficients and intercepts, using two dedicated sorted-l1 convex penalizations, also called SLOPE.We develop a complete theory for this problem: first, we provide sharp upper bounds on the statistical estimation error of both the vector of individual intercepts and regression coefficients.Second, we give an asymptotic control on the False Discovery Rate (FDR) and statistical power for support selection of the individual intercepts.Numerical illustrations, with a comparison to recent alternative approaches, are provided on both simulated and several real-world datasets.Our second part is motivated by a genetic problem. Among some particular DNA sequences called multi-satellites, which are indicators of the development or colorectal cancer tumors, we want to find the sequences that have a much higher (resp. much lower) rate of mutation than expected by biologist experts. This problem leads to a non-linear probabilistic model and thus goes beyond the scope of the first part. In this second part we thus consider some generalized linear models with individual intercepts added to the linear predictor, and explore the statistical properties of a new procedure for simultaneous estimation of the regression coefficients and intercepts, using again the sorted-l1 penalization. We focus in this part only on the low-dimensional case and are again interested in the performance of our procedure in terms of statistical estimation error and FDR.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : École polytechnique. Bibliothèque Centrale.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.