Statistiques sur les descripteurs topologiques à base de transport optimal
Auteur / Autrice : | Théo Lacombe |
Direction : | Steve Oudot, Marco Cuturi |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, données, IA |
Date : | Soutenance le 08/09/2020 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....) |
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....) | |
Equipe de recherche : Datashape - Understanding the shape of data | |
Jury : | Président / Présidente : Gabriel Peyré |
Examinateurs / Examinatrices : Steve Oudot, Marco Cuturi, François-Xavier Vialard, Peter Bubenik, Anthéa Monod, Sayan Mukherjee | |
Rapporteur / Rapporteuse : François-Xavier Vialard, Peter Bubenik |
Résumé
L’analyse topologique des données (ATD) permet d’extraire une information riche des données structurées (telles que les graphes ou les séries temporelles) présentes dans les problèmes modernes d’apprentissage. Elle va représenter cette information sous forme de descripteurs dont font partie les diagrammes de persistance, qui peuvent être décrits comme des mesures ponctuelles supportées sur un demi-plan. À défaut d’être de simples vecteurs, les diagrammes de persistance peuvent néanmoins être comparés entre eux à l’aide de métriques d’appariement partiel. La similarité entre ces métriques et les métriques usuelles du transport optimal - un autre domaine des mathématiques - est connue de longue date, mais un lien formel entre ces deux domaines restait à établir. L’objet de cette thèse est de clarifier cette connexion pour pouvoir utiliser les nombreux acquis du transport optimal afin de développer de nouveaux outils statistiques (théoriques et pratiques) pour manipuler les diagrammes de persistance. Dans un premier temps, nous montrons comment le transport optimal partiel avec frontière, une variante du transport optimal classique, nous fournit un formalisme qui contient les métriques usuelles de l’ATD. Nous illustrons ensuite les apports bénéfiques de cette reformulation dans différentes situations: étude théorique et algorithme pour l’estimation efficace des barycentres de diagrammes de persistance grâce au transport régularisé, caractérisation des représentations linéaires continues des diagrammes et leur apprentissage via un réseau de neurones versatile, ainsi qu’un résultat de stabilité des moyennes linéaires de diagrammes tirés aléatoirement.