Modèles de mélange bayésiens non-paramétriques et clustering
Auteur / Autrice : | Louise Alamichel |
Direction : | Julyan Arbel |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques Appliquées |
Date : | Inscription en doctorat le Soutenance le 17/09/2024 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 1995-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Jean Kuntzmann |
Equipe de recherche : MISTIS | |
Jury : | Président / Présidente : Jean-françois Coeurjolly |
Examinateurs / Examinatrices : Julyan Arbel, Tommaso Rigon, Sylvia Frühwirth-schnatter, Pierpaolo De blasi, Florence Forbes | |
Rapporteurs / Rapporteuses : Sylvia Frühwirth-schnatter, Pierpaolo De blasi |
Mots clés
Résumé
La classification, ou clustering, des données est un problème complexe, souvent traité à l'aide de modèles de mélange. Dans cette thèse, nous nous concentrons sur les modèles de mélange bayésiens non paramétriques. Ces modèles sont bien connus pour être consistants lorsqu'ils sont utilisés pour l'estimation de densité. Cependant, la consistance de la distribution a posteriori ne garantit pas asymptotiquement la résolution des problèmes de classification. Dans les deux premières contributions, nous étudions la consistance du nombre de clusters en utilisant des modèles de mélange bayésiens non paramétriques. Premièrement, nous prouvons que des résultats d'inconsistance s'appliquent à une classe générale de priors bayésiens non paramétriques, les processus de type Gibbs, et à certaines de leurs représentations de dimension finie. Ensuite, nous discutons des solutions possibles proposées dans la littérature et montrons l'application de ces solutions à certains des priors étudiés. Deuxièmement, nous nous concentrons sur un processus de type Gibbs particulier, le processus de Pitman--Yor avec un hyperprior sur son paramètre de concentration. Bien que la mise en place d'un prior sur le paramètre de concentration, notamment dans les modèles de mélange de processus de Dirichlet, soit une stratégie courante pour résoudre le problème d'inconsistance, nous montrons que le nombre de clusters avec un modèle de mélange de processus de Pitman--Yor est encore inconsistant dans ce cas. Dans la dernière contribution, nous étudions les côtés appliquées de ces modèles. Nous proposons un modèle de mélange bayésien non paramétrique pour évaluer les risques écologiques. Le choix d'une approche bayésienne non paramétrique offre plusieurs avantages, notamment son efficacité à gérer de petits ensembles de données typiques de l'évaluation des risques environnementaux, sa capacité à fournir une quantification de l'incertitude, ainsi qu'une estimation simultanée de la densité et du clustering. Suivant les résultats théoriques de la première partie de la thèse, nous utilisons un prior non paramétrique spécifique de la classe des mesures aléatoires normalisées à incréments indépendants comme mesure de mélange, choisi pour ses propriétés robustes en matière de classification. Nous utilisons également un cadre décisionnel pour estimer le clustering des données.