Thèse soutenue

Contributions à la sélection bayésienne des modèles de mélange finis et infinis avec une application au calcul distribué

FR  |  
EN
Auteur / Autrice : Adrien Hairault
Direction : Christian P. RobertJudith Rousseau
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 10/11/2023
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de recherche en mathématiques de la décision (Paris) - Centre de recherche en mathématiques de la décision (Paris)
établissement opérateur d'inscription : Université Paris Dauphine-PSL (1968-....)
Jury : Président / Présidente : Pierre Jacob
Examinateurs / Examinatrices : Christian P. Robert, Judith Rousseau, Pierre Jacob, François Caron, Anne Philippe, Robin Ryder
Rapporteur / Rapporteuse : François Caron, Anne Philippe

Résumé

FR  |  
EN

Ce travail vise à développer de nouveaux outils et procédures pour le problème de la sélection de modèle bayésienne pour les modèles de mélanges. Le facteur de Bayes, défini comme le rapport des vraisemblances marginales calculées pour deux modèles concurrents, est connu pour être consistent dans la plupart des situations. En pratique, l'estimation de la vraisemblance marginale des mélanges finis est une tâche complexe et s'accompagne généralement d'un coût computationnel d'ordre K!, où K est le nombre de composantes du mélange. Nous passons en revue les estimateurs les plus populaires de la vraisemblance marginale pour les mélanges finis et proposons deux méthodes alternatives plus robustes à une augmentation de K et de n, le nombre d'observations. Nous nous intéressons également au modèle de mélange de processus de Dirichlet (DPM) et proposons des estimateurs fiables de la vraisemblance marginale pour de tels modèles non paramétriques. Une application immédiate est la mise en place de tests d'adéquation dans lesquels l'adéquation d'un modèle paramétrique est évaluée par rapport à celle d'une alternative non paramétrique, incarnée par le DPM. Nous montrons que cette procédure est valide en prouvant que le facteur de Bayes est consistent dans ce cadre. Enfin, nous examinons la question de l'estimation distribuée de la vraisemblance marginale pour les mélanges finis, qui reste largement inexplorée jusqu'à présent. Comme c'est généralement le cas avec les mélanges, la plupart des difficultés découlent du manque d'identifiabilité dans l'étiquetage des clusters qu'ils induisent. En utilisant le cadre du Monte Carlo séquentiel, nous développons une méthode robuste qui accélère considérablement le calcul de la vraisemblance marginale en permettant l'échantillonnage selon la loi a posteriori en parallèle.