Thèse soutenue

Quelques contributions à l'analyse statistique de données à structure de graphe

FR  |  
EN
Auteur / Autrice : Etienne Lasalle
Direction : Pascal MassartFrédéric Chazal
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 05/12/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) - Datashape - Understanding the shape of data
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Jury : Président / Présidente : Christophe Giraud
Examinateurs / Examinatrices : Aurélie Fischer, Nicolas Verzelen, Kathryn Hess Bellwald, Sophie Donnet
Rapporteurs / Rapporteuses : Aurélie Fischer, Nicolas Verzelen

Résumé

FR  |  
EN

Avec l'augmentation des capacités d'acquisition et de stockage de données, le développement de méthodes efficaces pour le traitement de données à structure de graphe est devenu un point crucial pour les sciences des données. Nous introduisons et étudions de nouvelles méthodes de comparaison de graphes basées sur la diffusion de la chaleur. La nouveauté de notre approche réside essentiellement dans l'introduction du concept de processus de distances. Il s'agit de la famille de toutes les distances calculées sur une plage de temps de diffusion pour une paire de graphes donnée. Cela nous permet de développer une analyse multi-échelles des graphes. De plus, en représentant les graphes via des outils issus de l'analyse topologique des données, nous sommes en mesure de comparer des graphes de tailles différentes ou non alignés. L'étude des propriétés statistiques de ces processus se fait par la théorie des processus empiriques. Nous prouvons un théorème central limite (TCL) fonctionnel, ainsi qu'un résultat d'approximation gaussienne nous permettant de montrer que la vitesse de convergence dans le TCL est indépendante de la taille des graphes. Ces résultats sont généraux et peuvent être appliqués à d'autres processus. De plus, ils garantissent la validité asymptotique de méthodes de ré-échantillonage pour la construction de bandes de confiance et de tests à deux échantillons permettant de comparer des populations de graphes. Nous étudions les performances de ces tests sur des jeux de données simulés et nous les appliquons au problème de la détection de changement de distribution dans le cadre de l'apprentissage par réseaux de neurones.