Thèse soutenue

Modèles de mélanges Bayésiens non-paramétriques parcimonieux pour la classification automatique

FR  |  
EN
Auteur / Autrice : Marius Bartcus
Direction : Hervé Glotin
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 26/10/2015
Etablissement(s) : Toulon
Ecole(s) doctorale(s) : École doctorale Mer et Sciences. ED 548 (Toulon)
Partenaire(s) de recherche : Laboratoire : Laboratoire des Sciences de l'Information et des Systèmes (La Garde, Var)
Jury : Président / Présidente : Allou Badara Samé
Examinateurs / Examinatrices : Faicel Chamroukhi, Badih Ghattas
Rapporteurs / Rapporteuses : Younès Bennani, Christophe Biernacki

Résumé

FR  |  
EN

Cette thèse porte sur l’apprentissage statistique et l’analyse de données multi-dimensionnelles. Elle se focalise particulièrement sur l’apprentissage non supervisé de modèles génératifs pour la classification automatique. Nous étudions les modèles de mélanges Gaussians, aussi bien dans le contexte d’estimation par maximum de vraisemblance via l’algorithme EM, que dans le contexte Bayésien d’estimation par Maximum A Posteriori via des techniques d’échantillonnage par Monte Carlo. Nous considérons principalement les modèles de mélange parcimonieux qui reposent sur une décomposition spectrale de la matrice de covariance et qui offre un cadre flexible notamment pour les problèmes de classification en grande dimension. Ensuite, nous investiguons les mélanges Bayésiens non-paramétriques qui se basent sur des processus généraux flexibles comme le processus de Dirichlet et le Processus du Restaurant Chinois. Cette formulation non-paramétrique des modèles est pertinente aussi bien pour l’apprentissage du modèle, que pour la question difficile du choix de modèle. Nous proposons de nouveaux modèles de mélanges Bayésiens non-paramétriques parcimonieux et dérivons une technique d’échantillonnage par Monte Carlo dans laquelle le modèle de mélange et son nombre de composantes sont appris simultanément à partir des données. La sélection de la structure du modèle est effectuée en utilisant le facteur de Bayes. Ces modèles, par leur formulation non-paramétrique et parcimonieuse, sont utiles pour les problèmes d’analyse de masses de données lorsque le nombre de classe est indéterminé et augmente avec les données, et lorsque la dimension est grande. Les modèles proposés validés sur des données simulées et des jeux de données réelles standard. Ensuite, ils sont appliqués sur un problème réel difficile de structuration automatique de données bioacoustiques complexes issues de signaux de chant de baleine. Enfin, nous ouvrons des perspectives Markoviennes via les processus de Dirichlet hiérarchiques pour les modèles Markov cachés.