Thèse soutenue

Accrétions Locales appliquées au Clustering Scalable et Distribué

FR  |  
EN
Auteur / Autrice : Gaël Beck
Direction : Hanane Azzag
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 14/10/2019
Etablissement(s) : Paris 13
Ecole(s) doctorale(s) : École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury : Président / Présidente : Sophie Chabridon
Examinateurs / Examinatrices : Mustapha Lebbah, Faicel Chamroukhi, Sébastien Rebecchi, Tarn Duong
Rapporteurs / Rapporteuses : Allel Hadjali, Christophe Cérin

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Cette thèse porte sur les méthodes dédiées à la manipulation des données massives. Nous présentons de nouveaux algorithmes dans le domaine de l’apprentissage automatique en utilisant des techniques de hashage tel que le Locality Sensitive Hashing (LSH) pour permettre un passage à l’échelle des algorithmes en réduisant leur complexité.Dans la première partie, nous étudions le problème du passage à l’échelle d’algorithmes de clustering inspirés du Mean Shift pour les données vectorielles continues. Nous proposons un nouvel algorithme utilisant un système de hachage(LSH) tout en bénéficiant du récent paradigme MapReduce appliqué aux systèmes distribués. Nous présentons également la variante de l’algorithme de clustering pour les données catégorielles en utilisant le codage binaire et la distance de Hamming. Dans la deuxième partie, nous introduisons une amélioration du Clusterwise,qui est une combinaison de l’algorithme de clustering et de la régression. Nous proposons une amélioration de sa complexité en temps d’exécution en appliquant le clustering avant une tâche de régression PLS. Dans cette partie, nous avons étudié le problème de passage à l’échelle dans le domaine de la sélection devariables. Nous présentons deux algorithmes distribués efficaces basés sur la théorie des ensembles pour le prétraitement de données à grande échelle avec le framework Spark. Dans la dernière partie, nous proposons de partager sous forme d’un projet open source les travaux réalisés. Ce projet intitulé Clustering 4Ever offre la possibilité d'accéder au code source et de tester les différents algorithmes.