Some contributions to computational Bayesian methods with application to phylolinguistics - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Some contributions to computational Bayesian methods with application to phylolinguistics

Quelques contributions aux méthodes computationnelles bayesiennes, avec applications à la phylolinguistique

Résumé

This work is the concatenation of three papers, all revolving around Bayesian statistics. The first one concerns Bayesian phylogenetical inference with application to historical linguistics of Sign Languages. We develop a model for matricial datasets where lines and columns evolves jointly, this can represent vocabulary datasets or even socio-cultural traits. We are able to compute the likelihood associated with this model, and to sample from the posterior by using Sequential Monte Carlo methods with exotic tempering. The results on simulated datasets are quite satisfactory and the results on real dataset confronts the hypothesis of the linguists.The second deals with approximate Bayesian computation. These methods are useful for generative models with intractable likelihoods. These methods are however sensitive to the dimension of the parameter space, requiring exponentially increasing resources as this dimension grows. To tackle this difficulty, we explore a Gibbs version of the ABC approach that runs component-wise approximate Bayesian computation steps aimed at the corresponding conditional posterior distributions, and based on summary statistics of reduced dimensions. While lacking the standard justifications for the Gibbs sampler, the resulting Markov chain is shown to converge in distribution under some partial independence conditions. The associated stationary distribution can further be shown to be close to the true posterior distribution and some hierarchical versions of the proposed mechanism enjoy a closed form limiting distribution. Experiments also demonstrate the gain in efficiency brought by the Gibbs version over the standard solution.The third is dedicated to interacting particle methods. Over the last decades, various "non-linear" MCMC methods have arisen. While appealing for their convergence speed and efficiency, their practical implementation and theoretical study remain challenging. We introduce a large class of non-linear samplers that can be studied and simulated as the mean-field limit of a system of interacting particles. The practical implementation we propose leverages the computational power of modern hardware (GPU).
Ce travail est la concaténation de trois parties, ayant pour point commun de porter sur les statistiques bayésiennes. La première partie concerne les méthodes bayésiennes d'inférence de phylogénies, avec une application à l'histoire des langues des Signes. Nous développons un modèle pour des données matricielles, dont lignes et colonnes sont corrélées ; ces données peuvent représenter des traits socio-culturels, phénotypiques, ou, comme dans notre cas, des données lexicales. Nous montrons comment calculer la vraisemblance de ce modèle et proposons des méthodes numériques pour échantillonner depuis le posterior associé, basées sur un Monte Carlo séquentiel associé à un tempering exotique. Les résultats sur données simulées sont plus que satisfaisants, tandis que les résultats sur données réelles apportent des éléments de réponses aux questions des linguistes. La deuxième partie traite des méthodes bayésiennes approchées. Ces méthodes s'utilisent lorsque les vraisemblances sont intraitables, elles sont, hélas, particulièrement sensibles au fléau de la dimension, requérant des ressources exponentiellement élevées à mesure que la dimension croit. Pour résoudre ce problème, nous explorons une version à la Gibbs des méthodes ABC traditionnelles, où l'on met à jour séquentiellement les coordonnées des paramètres selon des lois conditionnelles approchées reposant sur des statistiques résumées de dimension moindre. Bien qu'il ne soit pas possible d'utiliser des méthodes classiques pour étudier cette méthode, nous avons été capables de montrer sa convergence vers une mesure stationnaire dépourvue de forme explicite. Les expériences démontrent une efficacité particulière par rapport aux méthodes standard. La troisième partie est dédiée aux méthodes numériques particulaires. Au cours des dernières décennies, des méthodes MCMC non linéaires ont été développées ; bien qu'attirantes par leur vitesse de convergence et leur efficacité, leur implémentation et étude théorique reste problématique. Nous introduisons une large classe de méthodes non linéaires qu'il est possible d'étudier à l'aide de limites champ-moyen de particules en interaction. L'implémentation que l'on propose repose sur le calcul parallèle sur GPU.
Fichier principal
Vignette du fichier
2021UPSLD008.pdf (21.03 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03546821 , version 1 (28-01-2022)

Identifiants

  • HAL Id : tel-03546821 , version 1

Citer

Grégoire Clarté. Some contributions to computational Bayesian methods with application to phylolinguistics. Statistics [math.ST]. Université Paris sciences et lettres, 2021. English. ⟨NNT : 2021UPSLD008⟩. ⟨tel-03546821⟩
92 Consultations
59 Téléchargements

Partager

Gmail Facebook X LinkedIn More