Parallel algorithms for clustering large datasets on CPU-GPU heterogeneous architectures

Guanlin He

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Algorithmes parallèles de clustering de grands ensembles de données pour architectures hétérogènes CPU-GPU

FR |

EN

Auteur / Autrice :	Guanlin He
Direction :	Stéphane Vialle, Marc Baboulin
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 19/10/2022
Etablissement(s) :	université Paris-Saclay
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
	référent : CentraleSupélec (2015-....)
	graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury :	Président / Présidente : Céline Hudelot
	Examinateurs / Examinatrices : Pierre Fortin, Masha Sosonkina, Sandrine Mouysset
	Rapporteurs / Rapporteuses : Pierre Fortin, Masha Sosonkina

Mots clés

FR |

EN

Mots clés contrôlés

Méthode de traitement de données par groupe

Calcul intensif (informatique)

Algorithmes parallèles

Mots clés libres

Clustering spectral

Algorithme des k-Moyennes

Calcul haute performance

Calcul sur GPU

Optimisation de codes parallèles

Évaluation de performances

Résumé

FR |

EN

Clustering, qui consiste à réaliser des groupements naturels de données, est une tâche fondamentale et difficile dans l'apprentissage automatique et l'exploration de données. De nombreuses méthodes de clustering ont été proposées dans le passé, parmi lesquelles le clustering en k-moyennes qui est une méthode couramment utilisée en raison de sa simplicité et de sa rapidité.Le clustering spectral est une approche plus récente qui permet généralement d'obtenir une meilleure qualité de clustering que les k-moyennes. Cependant, les algorithmes classiques de clustering spectral souffrent d'un manque de passage à l'échelle en raison de leurs grandes complexités en nombre d'opérations et en espace mémoire nécessaires. Ce problème de passage à l'échelle peut être traité en appliquant des méthodes d'approximation ou en utilisant le calcul parallèle et distribué.L'objectif de cette thèse est d'accélérer le clustering spectral et de le rendre applicable à de grands ensembles de données en combinant l'approximation basée sur des données représentatives avec le calcul parallèle sur processeurs CPU et GPU. En considérant différents scénarios, nous proposons plusieurs chaînes de traitement parallèle pour le clustering spectral à grande échelle. Nous concevons des algorithmes et des implémentations parallèles optimisés pour les modules de chaque chaîne proposée : un algorithme parallèle des k-moyennes sur CPU et GPU, un clustering spectral parallèle sur GPU avec un format de stockage creux, un filtrage parallèle sur GPU du bruit dans les données, etc. Nos expériences variées atteignent de grandes performances et valident le passage à l'échelle de chaque module et de nos chaînes complètes.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Algorithmes parallèles de clustering de grands ensembles de données pour architectures hétérogènes CPU-GPU

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Algorithmes parallèles de clustering de grands ensembles de données pour architectures hétérogènes CPU-GPU

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses