Estimation robuste des modèles de mélange sur des données distribuées

par Ali El Attar

Thèse de doctorat en Informatique

Sous la direction de Marc Gelgon et de Antoine Pigeau.

Soutenue en 2012

à Nantes , en partenariat avec École polytechnique de l'Université de Nantes (autre partenaire) .


  • Résumé

    Cette thèse propose une contribution en matière d’analyse de données, dans la perspective de systèmes informatiques distribués non-centralisés, pour le partage de données numériques. De tels systèmes se développent en particulier sur internet, possiblement à large échelle, mais aussi, par exemple, par des réseaux de capteurs. Notre objectif général est d’estimer la distribution de probabilité d’un jeu de données distribuées, à partir d’estimations locales de cette distribution, calculées sur des sousjeux de données locaux. En d’autres termes, il s’est agi de proposer une technique pour agréger des estimés locaux pour en faire un estimé global. Notre proposition s’appuie sur la forme particulière que doivent prendre toutes les distributions de probabilité manipulées : elles doivent se formuler comme un mélange de lois gaussiennes multivariées. Notre contribution est une solution à la fois décentralisée et statistiquement robuste aux modèles locaux aberrants, pour mener à bien l’agrégation globale, à partir d’agrégations locales de mélanges de lois gaussiennes. Ces agrégations locales ne requièrent un accès qu’aux seuls paramètres des modèles de mélanges, et non aux données originales.

  • Titre traduit

    Robust estimation of mixture models on distributed data


  • Résumé

    This work proposes a contribution aiming at probabilistic model estimation, in the setting of distributed, decentralized, data-sharing computer systems. Such systems are developing over the internet, and also exist as sensor networks, for instance. Our general goal consists in estimating a probability distribution over a data set which is distributed into subsets located on the nodes of a distributed system. More precisely, we are at estimating the global distribution by aggregating local distributions, estimated on these local subsets. Our proposal exploits the following assumption: all distributions are modelled as a Gaussian mixture. Our contribution is a solution that is both decentralized and statistically robust to outlier local Gaussian mixture models. The proposed process only requires mixture parameters, rather than original data.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (139 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. p.121-128

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Nantes Université. Service commun de la documentation. BU Sciences.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.