Scalable Clustering Applying Local Accretions | Theses.fr

Gaël Beck

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Accrétions Locales appliquées au Clustering Scalable et Distribué

FR |

EN

Auteur / Autrice :	Gaël Beck
Direction :	Hanane Azzag
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 14/10/2019
Etablissement(s) :	Paris 13
Ecole(s) doctorale(s) :	École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche :	Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
Jury :	Président / Présidente : Sophie Chabridon
	Examinateurs / Examinatrices : Mustapha Lebbah, Faicel Chamroukhi, Sébastien Rebecchi, Tarn Duong
	Rapporteurs / Rapporteuses : Allel Hadjali, Christophe Cérin

Mots clés

FR |

EN

Mots clés contrôlés

Systèmes autonomes distribués (informatique)

Adressage calculé (informatique)

Scalabilité (informatique)

Mots clés libres

Clustering

Résumé

FR |

EN

Cette thèse porte sur les méthodes dédiées à la manipulation des données massives. Nous présentons de nouveaux algorithmes dans le domaine de l’apprentissage automatique en utilisant des techniques de hashage tel que le Locality Sensitive Hashing (LSH) pour permettre un passage à l’échelle des algorithmes en réduisant leur complexité.Dans la première partie, nous étudions le problème du passage à l’échelle d’algorithmes de clustering inspirés du Mean Shift pour les données vectorielles continues. Nous proposons un nouvel algorithme utilisant un système de hachage(LSH) tout en bénéficiant du récent paradigme MapReduce appliqué aux systèmes distribués. Nous présentons également la variante de l’algorithme de clustering pour les données catégorielles en utilisant le codage binaire et la distance de Hamming. Dans la deuxième partie, nous introduisons une amélioration du Clusterwise,qui est une combinaison de l’algorithme de clustering et de la régression. Nous proposons une amélioration de sa complexité en temps d’exécution en appliquant le clustering avant une tâche de régression PLS. Dans cette partie, nous avons étudié le problème de passage à l’échelle dans le domaine de la sélection devariables. Nous présentons deux algorithmes distribués efficaces basés sur la théorie des ensembles pour le prétraitement de données à grande échelle avec le framework Spark. Dans la dernière partie, nous proposons de partager sous forme d’un projet open source les travaux réalisés. Ce projet intitulé Clustering 4Ever offre la possibilité d'accéder au code source et de tester les différents algorithmes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Accrétions Locales appliquées au Clustering Scalable et Distribué

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Accrétions Locales appliquées au Clustering Scalable et Distribué

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses