Quelques contributions à l'analyse statistique de données à structure de graphe
Auteur / Autrice : | Etienne Lasalle |
Direction : | Pascal Massart, Frédéric Chazal |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 05/12/2022 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) - Datashape - Understanding the shape of data |
référent : Faculté des sciences d'Orsay | |
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....) | |
Jury : | Président / Présidente : Christophe Giraud |
Examinateurs / Examinatrices : Aurélie Fischer, Nicolas Verzelen, Kathryn Hess Bellwald, Sophie Donnet | |
Rapporteurs / Rapporteuses : Aurélie Fischer, Nicolas Verzelen |
Résumé
Avec l'augmentation des capacités d'acquisition et de stockage de données, le développement de méthodes efficaces pour le traitement de données à structure de graphe est devenu un point crucial pour les sciences des données. Nous introduisons et étudions de nouvelles méthodes de comparaison de graphes basées sur la diffusion de la chaleur. La nouveauté de notre approche réside essentiellement dans l'introduction du concept de processus de distances. Il s'agit de la famille de toutes les distances calculées sur une plage de temps de diffusion pour une paire de graphes donnée. Cela nous permet de développer une analyse multi-échelles des graphes. De plus, en représentant les graphes via des outils issus de l'analyse topologique des données, nous sommes en mesure de comparer des graphes de tailles différentes ou non alignés. L'étude des propriétés statistiques de ces processus se fait par la théorie des processus empiriques. Nous prouvons un théorème central limite (TCL) fonctionnel, ainsi qu'un résultat d'approximation gaussienne nous permettant de montrer que la vitesse de convergence dans le TCL est indépendante de la taille des graphes. Ces résultats sont généraux et peuvent être appliqués à d'autres processus. De plus, ils garantissent la validité asymptotique de méthodes de ré-échantillonage pour la construction de bandes de confiance et de tests à deux échantillons permettant de comparer des populations de graphes. Nous étudions les performances de ces tests sur des jeux de données simulés et nous les appliquons au problème de la détection de changement de distribution dans le cadre de l'apprentissage par réseaux de neurones.