Optimal transport in high dimension : obtaining regularity and robustness using convexity and projections

par François-Pierre Paty

Thèse de doctorat en Mathématiques appliquées

Sous la direction de Marco Cuturi.

  • Titre traduit

    Transport optimal en grande dimension : obtention de régularité et de robustesse au moyen de la convexité et des projections


  • Résumé

    Au cours des dernières années, le transport optimal a gagné en popularité en apprentissage automatique comme moyen de comparer des mesures de probabilité. Contrairement aux dissimilarités plus classiques pour les distributions de probabilité, telles que la divergence de Kullback-Leibler, les distances de transport optimal (ou distances de Wasserstein) permettent de comparer des distributions dont les supports sont disjoints en prenant en compte la géométrie de l'espace sous-jacent. Cet avantage est cependant entravé par le fait que ces distances sont généralement calculées en résolvant un programme linéaire, ce qui pose, lorsque l'espace sous-jacent est de grande dimension, des défis statistiques bien documentés et auxquels on se réfère communément sous le nom de ``fléau'' de la dimension. Trouver de nouvelles méthodologies qui puissent atténuer ce problème est donc un enjeu crucial si l'on veut que les algorithmes fondés sur le transport optimal puissent fonctionner en pratique.Au-delà de cet aspect purement métrique, un autre intérêt de la théorie du transport optimal réside en ce qu'elle fournit des outils mathématiques pour étudier des cartes qui peuvent transformer, ou transporter, une mesure en une autre. De telles cartes jouent un rôle de plus en plus important dans divers domaines des sciences (biologie, imagerie cérébrale) ou sous-domaines de l'apprentissage automatique (modèles génératifs, adaptation de domaine), entre autres. Estimer de telles transformations qui soient à la fois optimales et qui puissent être généralisées en dehors des simples données, est un problème ouvert.Dans cette thèse, nous proposons un nouveau cadre d'estimation pour calculer des variantes des distances de Wasserstein. Le but est d'amoindrir les effets de la haute dimension en tirant partie des structures de faible dimension cachées dans les distributions. Cela peut se faire en projetant les mesures sur un sous-espace choisi de telle sorte à maximiser la distance de Wasserstein entre leurs projections. Outre cette nouvelle méthodologie, nous montrons que ce cadre d'étude s'inscrit plus largement dans un lien entre la régularisation des distances de Wasserstein et la robustesse.Dans la contribution suivante, nous partons du même problème d'estimation du transport optimal en grande dimension, mais adoptons une perspective différente : plutôt que de modifier la fonction de coût, nous revenons au point de vue plus fondamental de Monge et proposons d'utiliser le théorème de Brenier et la théorie de la régularité de Caffarelli pour définir une nouvelle procédure d'estimation des cartes de transport lipschitziennes qui soient le gradient d'une fonction fortement convexe.


  • Résumé

    Over the past few years, optimal transport has gained popularity in machine learning as a way to compare probability distributions. Unlike more classical dissimilarities for probability measures, such as the Kullback-Leibler divergence, optimal transport distances (or Wasserstein distances) can deal with distributions of disjoint supports by taking into account the geometry of the underlying ground space. This strength is, however, hampered by the fact that these distances are usually computed by solving a linear program, resulting, when this ground space is high-dimensional, in well documented statistical challenges, usually referred to as the ``curse'' of dimensionality. Finding new methodologies that can mitigate this issue is therefore crucial if one wants optimal transport-based algorithms to perform well on real data.Beyond this purely metric aspect, another appealing feature of optimal transport theory is that it provides mathematical tools to study maps that are able to morph (or push-forward) a measure into another. Such maps are playing an increasingly important role in various areas of science (biology, neuroimaging) or subdomains in machine learning (generative models, domain adaptation), to name a few. Estimating such morphings, or maps, that are both optimal and able to generalize outside the data, is an open problem.In this thesis, we propose a new estimation framework to compute proxies to the Wasserstein distance. That framework aims at handling high-dimensionality by taking advantage of the low-dimensional structures hidden in the distributions. This can be achieved by projecting the measures onto a subspace chosen so as to maximize the Wasserstein distance between their projections. In addition to this novel methodology, we show that this framework falls into a broader connection between regularization when computing Wasserstein distances and adversarial robustness.In the next contribution, we start from the same problem, estimation of optimal transport in high dimensions, but adopt a different perspective: rather than changing the ground cost, we go back to the more fundamental Monge perspective on optimal transport and use the Brenier theorem and Caffarelli's regularity theory to propose a new estimation procedure to characterize maps that are Lipschitz and gradients of strongly convex functions.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole Nationale de la Statistique et de l'Administration Economique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.