Thèse soutenue

La distance de Sliced-Wasserstein pour l’apprentissage automatique à grande échelle : théorie, méthodologie et extensions

FR  |  
EN
Auteur / Autrice : Kimia Nadjahi
Direction : Roland Badeau
Type : Thèse de doctorat
Discipline(s) : Signal, images, automatique et robotique
Date : Soutenance le 23/11/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Laboratoire : Laboratoire Traitement et Communication de l'Information / LTCI
Jury : Président / Présidente : Julie Delon
Examinateurs / Examinatrices : Roland Badeau, Julie Delon, Gabriel Peyré, Nicolas Courty, Laetitia Chapel, Marco Cuturi, Justin Solomon
Rapporteurs / Rapporteuses : Gabriel Peyré, Nicolas Courty

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

De nombreuses méthodes d'inférence statistique et de modélisation générative ont recours à une divergence pour pouvoir comparer de façon pertinente deux distributions de probabilité. La distance de Wasserstein, qui découle du transport optimal, est un choix intéressant, mais souffre de limites computationnelle et statistique à grande échelle. Plusieurs alternatives ont alors été proposées, notamment la distance de Sliced-Wasserstein (SW), une métrique de plus en plus utilisée en pratique en raison de ses avantages computationnels. Cependant, peu de travaux ont analysé ses propriétés théoriques. Cette thèse examine plus en profondeur l'utilisation de SW pour des problèmes modernes de statistique et d'apprentissage automatique, avec un double objectif : 1) apporter de nouvelles connaissances théoriques permettant une compréhension approfondie des algorithmes basés sur SW, et 2) concevoir de nouveaux outils inspirés de SW afin d'améliorer son application et sa scalabilité. Nous prouvons d'abord un ensemble de propriétés asymptotiques sur les estimateurs obtenus en minimisant SW, ainsi qu'un théorème central limite dont le taux de convergence est indépendant de la dimension. Nous développons également une nouvelle technique d'inférence basée sur SW qui n'utilise pas la vraisemblance, offre des garanties théoriques et s'adapte bien à la taille et à la dimension des données. Etant donné que SW est couramment estimée par une simple méthode de Monte Carlo, nous proposons ensuite deux approches pour atténuer les inefficacités dues à l'erreur d'approximation : d'une part, nous étendons la définition de SW pour introduire les distances de Sliced-Wasserstein généralisées, et illustrons leurs avantages sur des applications de modélisation générative ; d'autre part, nous tirons parti des résultats de concentration de la mesure pour formuler une nouvelle approximation déterministe de SW, qui est plus efficace à calculer que la technique de Monte Carlo et présente des garanties non asymptotiques sous une condition de dépendance faible. Enfin, nous définissons la classe générale de divergences "sliced" et étudions leurs propriétés topologiques et statistiques; en particulier, nous prouvons que l'erreur d'approximation de toute divergence sliced par des échantillons ne dépend pas de la dimension du problème.