Asymptotically exact data augmentation : models and Monte Carlo sampling with applications to Bayesian inference

par Maxime Vono

Thèse de doctorat en Signal, Image, Acoustique et Optimisation

Sous la direction de Nicolas Dobigeon et de Pierre Chainais.

Le président du jury était Éric Moulines.

Le jury était composé de Nicolas Dobigeon, Pierre Chainais, Florence Forbes, Jalal Fadili, Emilie Chouzenoux, Jean-Michel Marin.

Les rapporteurs étaient Florence Forbes, Jalal Fadili.

  • Titre traduit

    Augmentation de modèles approchée : Modèles et échantillonnage Monte Carlo avec applications à l'inférence Bayésienne


  • Résumé

    De nombreuses tâches d'apprentissage statistique et de traitement du signal/de l'image peuvent être formulées comme des problèmes d'inférence statistique. Un exemple typique sont les systèmes de recommandation qui reposent sur la complétion d'une matrice utilisateur/objet partiellement observée, qui peut être réalisée par l'estimation conjointe de facteurs latents et de coefficients d'activation. Plus formellement, l'objet à estimer est généralement défini comme la solution d'un problème d'optimisation variationnelle ou stochastique. En particulier, dans un cadre bayésien, cette solution est définie comme le minimiseur d'une fonction de coût, appelée fonction de perte a posteriori. Dans le cas simple où cette fonction est choisie comme quadratique, l'estimateur bayésien est connu pour être la moyenne a posteriori qui minimise l'erreur quadratique moyenne et qui est définie comme une intégrale par rapport à la distribution a posteriori. Dans la plupart des contextes applicatifs du monde réel, le calcul de telles intégrales n'est pas simple. Une alternative consiste à utiliser l'intégration de Monte Carlo, qui se résume à approximer toute espérance selon la distribution a posteriori par une moyenne empirique impliquant des échantillons générés selon la distribution a posteriori. Cette intégration dite de Monte Carlo nécessite la disponibilité de schémas algorithmiques efficaces capables de générer des échantillons à partir d'une distribution a posteriori souhaitée. Une vaste littérature consacrée à la génération de variables aléatoires a proposé divers algorithmes de Monte Carlo. Par exemple, les méthodes de Monte Carlo à chaîne de Markov (MCMC), dont les exemples particuliers sont le célèbre échantillonneur de Gibbs et l'algorithme de Metropolis-Hastings, définissent une large classe d'algorithmes qui permettent de générer une chaîne de Markov avec la distribution stationnaire souhaitée. Malgré leur simplicité et leur caractère générique en apparence, les algorithmes MCMC classiques peuvent se révéler inefficaces pour les problèmes à grande dimension, distribués et/ou très structurés. L'objectif principal de cette thèse consiste à introduire de nouveaux modèles et approches MCMC pour pallier ces problèmes. L'intractabilité de la distribution a posteriori est abordée en proposant une classe de modèles augmentés approximés mais asymptotiquement exacts (AXDA). Ensuite, deux échantillonneurs de Gibbs ciblant des distributions a posteriori approximées construites dans le cadre AXDA sont proposés et leurs avantages sont illustrés sur des problèmes difficiles de traitement du signal, de traitement d'images et d'apprentissage statistique. Une étude théorique détaillée du taux de convergence associé à l'un de ces deux échantillonneurs de Gibbs est également menée et révèle des dépendances explicites en ce qui concerne la dimension, le conditionnement du potentiel de la loi de la posterior et de la précision prescrite. Dans ce travail, nous prêtons également attention à la faisabilité des étapes d'échantillonnage impliquées dans les échantillonneurs de Gibbs proposés. Comme l'une de ces étapes nécessite d'échantillonner selon une distribution gaussienne en grande dimension, nous passons en revue et unifions les approches existantes en introduisant un cadre qui s'interprète comme la contrepartie stochastique du célèbre algorithme du point proximal. Ce lien fort entre la simulation et l'optimisation n'est pas isolé dans cette thèse. En effet, nous montrons également que les échantillonneurs de Gibbs proposés partagent des liens étroits avec les méthodes de pénalité quadratique et que le cadre AXDA génère une classe de fonctions d'enveloppe liées à celle de Moreau.


  • Résumé

    Numerous machine learning and signal/image processing tasks can be formulated as statistical inference problems. As an archetypal example, recommendation systems rely on the completion of partially observed user/item matrix, which can be conducted via the joint estimation of latent factors and activation coefficients. More formally, the object to be inferred is usually defined as the solution of a variational or stochastic optimization problem. In particular, within a Bayesian framework, this solution is defined as the minimizer of a cost function, referred to as the posterior loss. In the simple case when this function is chosen as quadratic, the Bayesian estimator is known to be the posterior mean which minimizes the mean square error and defined as an integral according to the posterior distribution. In most real-world applicative contexts, computing such integrals is not straightforward. One alternative lies in making use of Monte Carlo integration, which consists in approximating any expectation according to the posterior distribution by an empirical average involving samples from the posterior. This so-called Monte Carlo integration requires the availability of efficient algorithmic schemes able to generate samples from a desired posterior distribution. A huge literature dedicated to random variable generation has proposed various Monte Carlo algorithms. For instance, Markov chain Monte Carlo (MCMC) methods, whose particular instances are the famous Gibbs sampler and Metropolis-Hastings algorithm, define a wide class of algorithms which allow a Markov chain to be generated with the desired stationary distribution. Despite their seemingly simplicity and genericity, conventional MCMC algorithms may be computationally inefficient for large-scale, distributed and/or highly structured problems. The main objective of this thesis consists in introducing new models and related MCMC approaches to alleviate these issues. The intractability of the posterior distribution is tackled by proposing a class of approximate but asymptotically exact augmented (AXDA) models. Then, two Gibbs samplers targetting approximate posterior distributions based on the AXDA framework, are proposed and their benefits are illustrated on challenging signal processing, image processing and machine learning problems. A detailed theoretical study of the convergence rates associated to one of these two Gibbs samplers is also conducted and reveals explicit dependences with respect to the dimension, condition number of the negative log-posterior and prescribed precision. In this work, we also pay attention to the feasibility of the sampling steps involved in the proposed Gibbs samplers. Since one of this step requires to sample from a possibly high-dimensional Gaussian distribution, we review and unify existing approaches by introducing a framework which stands for the stochastic counterpart of the celebrated proximal point algorithm. This strong connection between simulation and optimization is not isolated in this thesis. Indeed, we also show that the derived Gibbs samplers share tight links with quadratic penalty methods and that the AXDA framework yields a class of envelope functions related to the Moreau one.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national polytechnique. Service commun de la documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.