Thèse en cours

Transport Optimal généralisé, calcul numérique et applications

FR  |  
EN

Accès à la thèse

Triangle exclamation pleinLa soutenance a eu lieu le 16/06/2022. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Thibault Séjourné
Direction : Gabriel PeyréFrançois Xavier Vialard
Type : Projet de thèse
Discipline(s) : Mathématiques
Date : Inscription en doctorat le
Soutenance le 16/06/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre
Partenaire(s) de recherche : Laboratoire : École normale supérieure (Paris ; 1985-....). Département de mathématiques et applications (1998-....)
établissement opérateur d'inscription : École normale supérieure (Paris ; 1985-....)
Jury : Président / Présidente : Julie Delon
Examinateurs / Examinatrices : Gabriel Peyre, François-Xavier Vialard, Laetitia Chapel, Axel Munk, Umut Simsekli, Alain Rakotomamonjy, Facundo Mémoli
Rapporteurs / Rapporteuses : Facundo Mémoli

Résumé

FR  |  
EN

De nombreux problèmes en sciences des données (par exemple en apprentissage automatique et en imagerie) requièrent d’approximer une distribution de données à l’aide d’un modèle. Une approche pour estimer le modèle consiste à minimiser une distance (ou plus généralement une divergence) entre les données et le modèle. Les propriétés de la distance ont un impact crucial sur le modèle issu de sa minimisation. Contrairement à d’autres approches très simples telles que la divergence de Kullback-Leibler ou les normes de noyau, les distances de transport optimal (TO) permettent d’obtenir de meilleurs résultats en tirant parti d’une information géométrique sous-jacente dans les données. Cependant, l’usage pratique des distances de transport optimal est difficile pour plusieurs raisons. Elles sont coûteuses à estimer numériquement, ce qui est restrictif pour des jeux de données de grande taille. Elles sont sensibles à la présence de bruit ou de valeurs aberrantes dans les données. Elles sont limitées à la comparaison de distributions qui ont la même masse (comme des probabilités de masse 1) et qui sont définies dans le même espace. Cela nuit à l’efficacité des distances TO dans des domaines tels que la biologie cellulaire, par exemple, où de grandes populations de cellules sont comparées via l’utilisation d’appareils de mesure différents. Dans cet exemple, le modèle doit tenir compte d’observations bruitées (voire erronées), et la comparaison de mesures biologiques d’origines distinctes impose une représentation des distributions dans des espaces différents. Par conséquent, l’utilisation directe des distances TO dans un tel cas pourrait donner des résultats non pertinents. Il est possible de résoudre chacune de ces difficultés à l’aide de différentes extensions du TO : la régularisation entropique (pour accélérer les calculs et combattre le fléau de la dimension), le transport non-équilibré (pour rendre le TO robuste aux variations de masse) et les distances de Gromov-Wasserstein (pour être invariant aux isométries et comparer des mesures définies dans des espaces différents). Les contributions de cette thèse fournissent des avancées théoriques et numériques afin de pouvoir fusionner ces différentes extensions dans un cadre cohérent. Un premier problème étudié est le calcul rapide des problèmes de TO non-équilibrés dans les chapitres 2 et 4. Les contributions des autres chapitres reposent sur ces algorithmes d’estimation du TO non-équilibré. Une combinaison du TO non-équilibré avec la régularisation entropique, appelée divergence de Sinkhorn, est étudiée au chapitre 3. Il est prouvé qu’elle conserve les bénéfices computationnels du TO régularisé, avec les propriétés métriques du TO non régularisé, de sorte qu’il est préférable en pratique de l’utiliser dans les tâches d’estimation de modèles. Deux combinaisons du TO non-équilibré avec les distances de Gromov-Wasserstein sont présentées dans les Chapitres 5 et 6. Celle du Chapitre 5 est une divergence qui exploite la régularisation entropique pour être estimée efficacement. Celle du Chapitre 6 vérifie l’inégalité triangulaire et est donc une distance.