Algorithmes stochastiques pour le transport optimal et leurs applications en statistique pour l'analyse de données

par Paul Freulon

Projet de thèse en Mathématiques appliquées et calcul scientifique

Sous la direction de Jeremie Bigot.

Thèses en préparation à Bordeaux , dans le cadre de École doctorale de mathématiques et informatique (Talence, Gironde) , en partenariat avec IMB - Institut de Mathématiques de Bordeaux (laboratoire) et de Image Optimisation et Probabilités (equipe de recherche) depuis le 08-11-2019 .


  • Résumé

    Dans de nombreux problèmes d'apprentissage statistique, il est nécessaire de pouvoir comparer des données qui peuvent se représenter sous la forme de mesures de probabilités ou d'histogrammes. Il existe des exemples variés qui incluent l'analyse de nuages de mots pour l'étude du langage, la vision par ordinateur, la catégorisation d'images ou bien l'étude de bio-marqueurs en bio-informatique. L'utilisation de la notion de distance de Wasserstein associée au problème de transport optimal entre des mesures de probabilités est depuis récemment un outil privilégié pour la comparaison de ce type de données qui permet d'atteindre les performances à l'état de l'art pour de nombreuses applications. Une problématique centrale dans l'utilisation de distances de Wasserstein en apprentissage statistique est le coût du calcul numérique (ou de l'approximation) du transport optimal entre deux mesures de probabilités. Pour contourner cette difficulté dans l'utilisation des distances de Wasserstein pour l'analyse de données, il a été récemment introduit des estimateurs d'une distance de transport (possiblement régularisée) basés sur des algorithmes de gradient stochastique. Le sujet de cette thèse porte sur l'étude des propriétés de tels algorithmes d'optimisation stochastique pour le transport optimal et leurs applications en apprentissage statistique. On s'intéressera en particulier aux propriétés statistiques et computationnelles de ce type d'approche pour le calcul de barycentres et de l'analyse en composantes principales (ACP) géodésique dans l'espace de Wasserstein dans un contexte de données de grande dimension. Le sujet de thèse est de nature à la fois théorique et numérique. Les principales notions abordées feront appel à des outils de probabilité, statistique et d'optimisation avec des applications possibles en traitement de données en bio-informatique.

  • Titre traduit

    Stochastic algorithms for optimal transport and their applications in statistics for data analysis


  • Résumé

    In many statistical learning problems, it is necessary to be able to compare data that can be represented as probability measures or histograms. There are various examples that include word cloud analysis for natural language processing, computer vision, image classification or the study of bio-markers in bioinformatics. The use of the notion of Wasserstein distance associated with the optimal transport problem between probability measures has recently been a favored tool for the comparison of this type of data which makes it possible to reach state-of-the-art performances in many applications. A central problem in using Wasserstein distances in statistical learning is the cost of the numerical computation (or approximation) of the optimal transport between two probability measures. To circumvent this difficulty in using Wasserstein distances for data analysis, estimators based on stochastic gradient algorithms to evaluate a transport distance (possibly regularized) have recently been introduced. The topic of this thesis deals with the study of the properties of such stochastic optimization algorithms for optimal transport and their applications in statistical learning. We will focus in particular on the statistical and computational properties of this type of approach for the computation of barycenters and geodetic principal component analysis (PCA) in the Wasserstein space in a context of large data. The thesis subject covers both theoretical and numerical aspects. The main concepts involved in the thesis will use tools from statistics, probability and optimization with possible applications in data processing in bioinformatics.