Thèse soutenue

Rank processes and statistical applications in high dimension
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Myrto Limnios
Direction : Nicolas Vayatis
Type : Thèse de doctorat
Discipline(s) : Mathématiques aux interfaces
Date : Soutenance le 14/03/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : référent : École normale supérieure Paris-Saclay (Gif-sur-Yvette, Essonne ; 1912-....)
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Laboratoire : Centre Borelli (Gif-sur-Yvette, Essonne ; 2020-...)
Jury : Président / Présidente : Pascal Massart
Examinateurs / Examinatrices : Alexandra Carpentier, Johan Segers, Sara A. van de Geer, Stephan Clémençon
Rapporteurs / Rapporteuses : Alexandra Carpentier, Johan Segers

Résumé

FR  |  
EN

Ce projet de recherche propose de développer des outils mathématiques et algorithmiques pour étudier et comparer deux jeux de données complexes en grande dimension: vecteurs, signaux multivariés, trajectoires, signaux sur graphes. Il répond à des enjeux fondamentaux liés à la quantification dans les sciences expérimentales, notamment les sciences de la vie et par-là même les neurosciences et ses applications cliniques.Pour se faire, nous proposons une généralisation des statistiques linéaires de rang à l’aide d’outils développés en apprentissage automatique. En effet, et grâce à des techniques d’ordonnancement biparti, nous articulons une étude avancée et non-paramétrique de ces statistiques à deux échantillons statistiques sous l’angle de la théorie de l’apprentissage statistique. Plus précisément, les méthodes d’ordonnancement permettent de pallier l’absence de relation d’orde dans les espaces de grande dimension grâce à l’apprentissage d’une fonction de score. Définie sur l’espace ambiant et à valeur réelle, cette dernière a pour but d’induire un ordre sur les observations multivariées en maximisant la statistique de rang généralisée.Nous proposons une première application dans le cadre des tests d’hypothèses statistiques, en associant décision (acceptation/rejet) de l'hypothèse nulle à l’apprentissage d'un modèle décrivant les données. Nous étudions, plus précisément, les tests d’homogénéité à deux échantillons. Ensuite, deux applications en analyse de données sont introduites et développées en utilisant les statistiques de rang comme critère de performance. Nous les appliquons aux problèmes d’ordonnancement bipartie et d’apprentissage des données extrêmes, ou anomalies, et précisons leurs relations à l’état de l’art. Enfin, dans la volonté de proposer des outils adaptés aux données issues des sciences expérimentales et dans le cadre de l’étude des données biomédicales, nous introduisons une méthode interprétable de comparaison statistique de deux populations cliniques ainsi que d’un modèle stochastique génératif de données longitudinales particulières.