Estimation de modèles de mélange probabilistes: une proposition pour un fonctionnement réparti et décentralise

Afshin Nikseresht

Résumé

This thesis deals with the distributed statistical estimation, with its motivation from, and appli- cation to, multimedia content-based indexing. Algorithms and data from various contributors would cooperate towards a collective statistical learning. The contribution is a scheme for es- timating a multivariate probability density in the case where this density takes the form of a Gaussian mixture model (GMM). In this setting, aggregation of probabilistic Gaussian mixture models of the same class, but estimated on several nodes on different data sets, is a typical need, which we address in this thesis. The proposed approaches for fusion only requires moderate com- putation at each node and little data to transit between nodes. Both properties are obtained by aggregating models via their (few) parameters, rather than via multimedia data itself. In the first approach, assuming independently estimated mixtures, we propagate their parameters in a decentralized fashion (gossip) in a network, and aggregate GMMs from connected nodes, to improve estimation. Mixture models are in fact concatenated, then reduced to a suitable number of Gaussian components. A modification on Kullback divergence leads to an iterative scheme for estimating this aggregated model. As an improvement through a change of principle over the first work, aggregation is achieved through Bayesian modelling of the GMM component grouping problem and solved using a variational Bayes technique, applied at component level. This determines, through a single, low-cost yet accurate process, assignments of components that should be aggregated and the number of components in the mixture after aggregation. Because only model parameters are exchanged on the network, computational and network load remain very moderate.

Cette th`ese traite de l'estimation statistique distribu ́e, avec la motivation de, et l'application `a l'indexation multim ́edia par le contenu. Les algorithmes et les donn ́ees de divers contributeurs coop ́ereront vers un apprentissage statistique collectif. La contribution est un arrangement pour estimer une densit ́e de probabilit ́e multivariable, dans le cas ou` cette densit ́e prend la forme d'un mod`ele de m ́elange gaussien. Dans ce cadre, l'agr ́egation des mod`eles probabilistes de m ́elanges gaussiens de la mˆeme classe, mais estim ́es `a plusieurs nœuds sur diff ́erents ensembles de donn ́ees, est une n ́ecessit ́e typique `a laquelle nous nous int ́eressons dans cette th`ese. Les approches propo- s ́ees pour la fusion de m ́elanges gaussiens exigent uniquement le calcul mod ́er ́e `a chaque nœud et peu de donn ́ees de transit entre les nœuds. Ces deux propri ́et ́es sont obtenues en agr ́egeant des mod`eles via leurs (peu) param`etres plutˆot que par les donn ́ees multim ́edia. Dans la premi`ere approche, en supposant que les m ́elanges sont estim ́es ind ́ependamment, nous propageons leurs param`etres de fa ̧con d ́ecentralis ́ee (gossip), dans un r ́eseau, et agr ́egeons les mod`eles `a partir des nœuds reli ́es entre eux, pour am ́eliorer l'estimation. Les mod`eles de m ́elange sont en fait concat ́en ́es puis r ́eduits `a un nombre appropri ́e de composants gaussiens. Une modification de la divergence de Kullback conduit `a un processus it ́eratif pour estimer ce mod`ele agr ́eg ́e. Afin d'ap- porter une am ́elioration, l'agr ́egation est r ́ealis ́ee par la mod ́elisation bay ́esienne du probl`eme de groupement de composant de mod`ele de m ́elange gaussien et est r ́esolue en utilisant la m ́ethode variationnelle, appliqu ́ee au niveau de composant. Cela permet de d ́eterminer, par un processus simple, peu couˆteux et pr ́ecis, les attributions des composants qui devraient ˆetre agr ́eg ́es et le nombre de composants dans le m ́elange apr`es l'agr ́egation. Comme seulement les param`etres du mod`ele sont ́echang ́es sur le r ́eseau, le calcul et la charge du r ́eseau restent tr`es mod ́er ́es.

A proposal for decentralized, distributed estimation of probabilistic mixture models

Estimation de modèles de mélange probabilistes: une proposition pour un fonctionnement réparti et décentralise

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager