Thèse soutenue

Statistiques sur les descripteurs topologiques à base de transport optimal

FR  |  
EN
Auteur / Autrice : Théo Lacombe
Direction : Steve OudotMarco Cuturi
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 08/09/2020
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....)
Equipe de recherche : Datashape - Understanding the shape of data
Jury : Président / Présidente : Gabriel Peyré
Examinateurs / Examinatrices : Steve Oudot, Marco Cuturi, François-Xavier Vialard, Peter Bubenik, Anthéa Monod, Sayan Mukherjee
Rapporteur / Rapporteuse : François-Xavier Vialard, Peter Bubenik

Résumé

FR  |  
EN

L’analyse topologique des données (ATD) permet d’extraire une information riche des données structurées (telles que les graphes ou les séries temporelles) présentes dans les problèmes modernes d’apprentissage. Elle va représenter cette information sous forme de descripteurs dont font partie les diagrammes de persistance, qui peuvent être décrits comme des mesures ponctuelles supportées sur un demi-plan. À défaut d’être de simples vecteurs, les diagrammes de persistance peuvent néanmoins être comparés entre eux à l’aide de métriques d’appariement partiel. La similarité entre ces métriques et les métriques usuelles du transport optimal - un autre domaine des mathématiques - est connue de longue date, mais un lien formel entre ces deux domaines restait à établir. L’objet de cette thèse est de clarifier cette connexion pour pouvoir utiliser les nombreux acquis du transport optimal afin de développer de nouveaux outils statistiques (théoriques et pratiques) pour manipuler les diagrammes de persistance. Dans un premier temps, nous montrons comment le transport optimal partiel avec frontière, une variante du transport optimal classique, nous fournit un formalisme qui contient les métriques usuelles de l’ATD. Nous illustrons ensuite les apports bénéfiques de cette reformulation dans différentes situations: étude théorique et algorithme pour l’estimation efficace des barycentres de diagrammes de persistance grâce au transport régularisé, caractérisation des représentations linéaires continues des diagrammes et leur apprentissage via un réseau de neurones versatile, ainsi qu’un résultat de stabilité des moyennes linéaires de diagrammes tirés aléatoirement.