Thèse soutenue

De la topologie aux méthodes d'apprentissage automatique : utiliser puis dépasser les diagrammes de persistance

FR  |  
EN
Auteur / Autrice : Olympio Hacquard
Direction : Gilles BlanchardClément Levrard
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 15/09/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Laboratoire de mathématiques d'Orsay (1998-....) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Saclay, Ile-de-France)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-....)
Equipe de recherche : Datashape - Understanding the shape of data
Jury : Président / Présidente : Elisabeth Gassiat
Examinateurs / Examinatrices : Ulrike von Luxburg, Marc Hoffmann, Bertrand Michel, Yasuaki Hiraoka
Rapporteurs / Rapporteuses : Ulrike von Luxburg, Marc Hoffmann

Résumé

FR  |  
EN

La raison d'être de l'analyse topologique des données est d'extraire de l'information de nature topologique afin d'aider à analyser des jeux de données. Cette information peut alors être aisément incluse dans une chaîne de traitement pour effectuer diverses tâches d'apprentissages sur les données. Un des objets les plus présents dans ce cadre est le diagramme de persistance. Mathématiquement, cet objet est une mesure discrète où les coordonnées de chaque point correspondent à des échelles auxquelles une composante topologique est présente dans les données. Supposons que l'on ait accès à des observations bruitées d'une fonction lisse, le diagramme de persistance peut alors être scindé en une composante de bruit et une composante de signal. La première contribution de cette thèse est d'exploiter cette information pour un problème de régression afin de reconstruire une fonction bruitée. En minimisant un critère topologique, on parvient à annuler le bruit et récupérer un signal lisse. Cependant, cette dichotomie entre le signal et le bruit est assez grossière, et les diagrammes de persistance contiennent beaucoup d'information pouvant permettre de classifier des données. En raison de leur structure de mesures, ils ne peuvent être mis tels quels en entrée d'algorithmes d'apprentissage automatique standards. La deuxième contribution de cette thèse est de proposer une méthode de classification de mesures, et l'adaptation des principes fondateurs de la théorie de l'apprentissage statistique dans ce contexte. On a également contribué à l'étude asymptotique des diagrammes de persistance dans un cadre aléatoire. En pratique, l'information utile contenue dans les diagrammes peut être redondante et on peut être intéressés par seulement quelques statistiques bien choisies extraites du diagramme. Dans une troisième contribution, on a développé des descripteurs basés sur le calcul de la caractéristique d'Euler, qui sont bien plus rapides à calculer que les diagrammes de persistance, tout en conservant une performance similaire. De plus, ces descripteurs peuvent être adaptés à une évolution multi-paramètre de la topologie des données, permettant de dépasser une restriction théorique des diagrammes de persistance qui contraint à l'utilisation d'un seul paramètre d'évolution.