Accrétions Locales appliquées au Clustering Scalable et Distribué
Auteur / Autrice : | Gaël Beck |
Direction : | Hanane Azzag |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 14/10/2019 |
Etablissement(s) : | Paris 13 |
Ecole(s) doctorale(s) : | École doctorale Galilée (Villetaneuse, Seine-Saint-Denis) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....) |
Jury : | Président / Présidente : Sophie Chabridon |
Examinateurs / Examinatrices : Mustapha Lebbah, Faicel Chamroukhi, Sébastien Rebecchi, Tarn Duong | |
Rapporteurs / Rapporteuses : Allel Hadjali, Christophe Cérin |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse porte sur les méthodes dédiées à la manipulation des données massives. Nous présentons de nouveaux algorithmes dans le domaine de l’apprentissage automatique en utilisant des techniques de hashage tel que le Locality Sensitive Hashing (LSH) pour permettre un passage à l’échelle des algorithmes en réduisant leur complexité.Dans la première partie, nous étudions le problème du passage à l’échelle d’algorithmes de clustering inspirés du Mean Shift pour les données vectorielles continues. Nous proposons un nouvel algorithme utilisant un système de hachage(LSH) tout en bénéficiant du récent paradigme MapReduce appliqué aux systèmes distribués. Nous présentons également la variante de l’algorithme de clustering pour les données catégorielles en utilisant le codage binaire et la distance de Hamming. Dans la deuxième partie, nous introduisons une amélioration du Clusterwise,qui est une combinaison de l’algorithme de clustering et de la régression. Nous proposons une amélioration de sa complexité en temps d’exécution en appliquant le clustering avant une tâche de régression PLS. Dans cette partie, nous avons étudié le problème de passage à l’échelle dans le domaine de la sélection devariables. Nous présentons deux algorithmes distribués efficaces basés sur la théorie des ensembles pour le prétraitement de données à grande échelle avec le framework Spark. Dans la dernière partie, nous proposons de partager sous forme d’un projet open source les travaux réalisés. Ce projet intitulé Clustering 4Ever offre la possibilité d'accéder au code source et de tester les différents algorithmes.