Scalable Clustering Applying Local Accretions

par Gaël Beck

Thèse de doctorat en Informatique

Sous la direction de Hanane Azzag.

Le président du jury était Sophie Chabridon.

Le jury était composé de Mustapha Lebbah, Faicel Chamroukhi, Sébastien Rebecchi, Tarn Duong.

Les rapporteurs étaient Allel Hadjali, Christophe Cérin.

  • Titre traduit

    Accrétions Locales appliquées au Clustering Scalable et Distribué


  • Résumé

    Cette thèse porte sur les méthodes dédiées à la manipulation des données massives. Nous présentons de nouveaux algorithmes dans le domaine de l’apprentissage automatique en utilisant des techniques de hashage tel que le Locality Sensitive Hashing (LSH) pour permettre un passage à l’échelle des algorithmes en réduisant leur complexité.Dans la première partie, nous étudions le problème du passage à l’échelle d’algorithmes de clustering inspirés du Mean Shift pour les données vectorielles continues. Nous proposons un nouvel algorithme utilisant un système de hachage(LSH) tout en bénéficiant du récent paradigme MapReduce appliqué aux systèmes distribués. Nous présentons également la variante de l’algorithme de clustering pour les données catégorielles en utilisant le codage binaire et la distance de Hamming. Dans la deuxième partie, nous introduisons une amélioration du Clusterwise,qui est une combinaison de l’algorithme de clustering et de la régression. Nous proposons une amélioration de sa complexité en temps d’exécution en appliquant le clustering avant une tâche de régression PLS. Dans cette partie, nous avons étudié le problème de passage à l’échelle dans le domaine de la sélection devariables. Nous présentons deux algorithmes distribués efficaces basés sur la théorie des ensembles pour le prétraitement de données à grande échelle avec le framework Spark. Dans la dernière partie, nous proposons de partager sous forme d’un projet open source les travaux réalisés. Ce projet intitulé Clustering 4Ever offre la possibilité d'accéder au code source et de tester les différents algorithmes.


  • Résumé

    This thesis focuses on methods allowing to tackle complexity problem of specific algorithms in order to deal with Big Data. It presents well known algorithms and new ones from various machine learning fields (unsupervised and supervised learning), which use modern algorithms as the Locality Sensitive Hashing to decrease efficiently the algorithmic complexity. In the first part, we study the problem of scalable clustering algorithm based on Mean Shift algorithm for continuous features. We propose a new design for the Mean Shift clustering using locality sensitive hashing and distributed system. Its variation for categorical features is also proposed based on binary coding and Hamming distance. In the second part, we introduce scalable Clusterwise method, which is a combination of clustering algorithm and PLS regression. The issue is to find clusters of entities such that the overall sum of squared errors from regressions performed over these clusters is minimized, where each cluster may have a different variance. We improve its time duration and scalability by applying clustering before the regression task. We investigate also in this part of the thesis a feature selection field. We present two efficient distributed algorithms based on Rough Set Theory for large-scale data pre-processing under the Spark framework. The first approach(Sp-RST) splits the given dataset into partitions with smaller numbers of features which are then processed in parallel. The second proposition LSH-dRST use locality sensitive hashing as clustering method to determine appropriate partitions of the feature set.In the last part, we propose to share as an open source project. This project titled Clustering4Ever offers the possibility to anyone to read the source code and test the different algorithms either via notebooks or calling directly the API. The design enables the generation of algorithms working for many types of data.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris 13 (Villetaneuse, Seine-Saint-Denis). Bibliothèque universitaire.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.