Thèse soutenue

Transport optimal en grande dimension : obtention de régularité et de robustesse au moyen de la convexité et des projections

FR  |  
EN
Auteur / Autrice : François-Pierre Paty
Direction : Marco Cuturi
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 29/06/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard
Partenaire(s) de recherche : Laboratoire : Centre de recherche en économie et statistique (France)
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau, Essonne)
Jury : Président / Présidente : Guillaume Lecué
Examinateurs / Examinatrices : Marco Cuturi, Guillaume Lecué, Jérôme Malick, François-Xavier Vialard, Giovanni Conforti, Laetitia Chapel, Umut Şimşekli
Rapporteurs / Rapporteuses : Jérôme Malick, François-Xavier Vialard

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Au cours des dernières années, le transport optimal a gagné en popularité en apprentissage automatique comme moyen de comparer des mesures de probabilité. Contrairement aux dissimilarités plus classiques pour les distributions de probabilité, telles que la divergence de Kullback-Leibler, les distances de transport optimal (ou distances de Wasserstein) permettent de comparer des distributions dont les supports sont disjoints en prenant en compte la géométrie de l'espace sous-jacent. Cet avantage est cependant entravé par le fait que ces distances sont généralement calculées en résolvant un programme linéaire, ce qui pose, lorsque l'espace sous-jacent est de grande dimension, des défis statistiques bien documentés et auxquels on se réfère communément sous le nom de ``fléau'' de la dimension. Trouver de nouvelles méthodologies qui puissent atténuer ce problème est donc un enjeu crucial si l'on veut que les algorithmes fondés sur le transport optimal puissent fonctionner en pratique.Au-delà de cet aspect purement métrique, un autre intérêt de la théorie du transport optimal réside en ce qu'elle fournit des outils mathématiques pour étudier des cartes qui peuvent transformer, ou transporter, une mesure en une autre. De telles cartes jouent un rôle de plus en plus important dans divers domaines des sciences (biologie, imagerie cérébrale) ou sous-domaines de l'apprentissage automatique (modèles génératifs, adaptation de domaine), entre autres. Estimer de telles transformations qui soient à la fois optimales et qui puissent être généralisées en dehors des simples données, est un problème ouvert.Dans cette thèse, nous proposons un nouveau cadre d'estimation pour calculer des variantes des distances de Wasserstein. Le but est d'amoindrir les effets de la haute dimension en tirant partie des structures de faible dimension cachées dans les distributions. Cela peut se faire en projetant les mesures sur un sous-espace choisi de telle sorte à maximiser la distance de Wasserstein entre leurs projections. Outre cette nouvelle méthodologie, nous montrons que ce cadre d'étude s'inscrit plus largement dans un lien entre la régularisation des distances de Wasserstein et la robustesse.Dans la contribution suivante, nous partons du même problème d'estimation du transport optimal en grande dimension, mais adoptons une perspective différente : plutôt que de modifier la fonction de coût, nous revenons au point de vue plus fondamental de Monge et proposons d'utiliser le théorème de Brenier et la théorie de la régularité de Caffarelli pour définir une nouvelle procédure d'estimation des cartes de transport lipschitziennes qui soient le gradient d'une fonction fortement convexe.