Réduction de dimension pour l'homologie persistante

par Olympio Hacquard

Projet de thèse en Mathématiques appliquées

Sous la direction de Gilles Blanchard.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale de mathématiques Hadamard , en partenariat avec Laboratoire de Mathématiques d'Orsay (laboratoire) , Probabilités et statistiques (LMO) (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-10-2020 .


  • Résumé

    Les méthodes d'analyse topologique de données visent à comprendre, analyser et exploiter la structure topologique et géométrique de données souvent représentéees par des nuages de points dans des espaces euclidiens ou des espaces métriques plus généraux. Avec l'émergence de la théorie de la persistance topologique, la géométrie et la topologie algorithmique ont fourni des outils mathématiques et algorithmiques nouveaux et efficaces pour aborder ce sujet. Un diagramme de persistance apparaît comme un multiensemble résumant les descripteurs topologiques du nuage de points. Ces diagrammes ne sont pas aisément manipulables tels quels et nécessitent une étape de vectorisation afin de le représenter dans un espace euclidien, et ensuite appliquer des méthodes standard d'apprentissage statistique. Une méthode usuelle est celle des images persistantes. Un inconvénient de ces méthodes est que la dimension des variables d'entrée est très grande et ainsi sensible au fléau de la dimension. L'objectif de cette thèse sera de pratiquer des méthodes de réduction de dimension, dans un premier temps sur la vectorisation des diagrammes, et d'effectuer une discrimination simple (classifieur linéaire) avec une pénalisation l0. Cela permettra de dégager des premiers résultats théoriques en prédiction et en identification de support. Dans un second temps, pour des fins d'implémentation effective, l'étude de procédures algorithmiquement moins coûteuse (par exemple de type Lasso) sera envisagée. La compréhension des motifs topologiques discriminants et l'interprétation géométrique du jeu de données constitueront une composante essentielle du travail subséquentes à l'étude statistique.

  • Titre traduit

    Dimension reduction for persistent homology


  • Résumé

    Topological data analysis methods are aimed at understanding, analyzing and exploiting the topological and geometric structure of data often represented by point clouds in Euclidean or more general metric spaces. With the emergence of topological persistence theory, geometry and algorithmic topology have provided new and effective mathematical and algorithmic tools to address this topic. A persistence diagram appears as a multi-set summarizing the topological descriptors of the point cloud. These diagrams are not easily manipulated as such and require a vectorization step in order to represent them in a Euclidean space, and then apply standard statistical learning methods. A common method is that of persistent images. A disadvantage of these methods is that the dimensionality of the input variables is very large and thus sensitive to the curse of dimensionality. The objective of this thesis will be to analyze dimension reduction methods, first on the vectorization of diagrams, and to perform a simple discrimination (linear classifier) with a l0 penalty. This will allow to get first theoretical results in prediction and support identification. In a second step, for effective implementation purposes, the study of algorithmically less expensive procedures (for example Lasso) will be considered. The understanding of topological discriminant patterns and the geometric interpretation of the dataset will be an essential component of the subsequent work on the statistical study.