Apprentissage massivement distribué dans un environnement Big Data

Tugdual Sarazin

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage massivement distribué dans un environnement Big Data

FR |

EN

Auteur / Autrice :	Tugdual Sarazin
Direction :	Mustapha Lebbah, Hanane Azzag
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 26/06/2018
Etablissement(s) :	Sorbonne Paris Cité
Ecole(s) doctorale(s) :	École doctorale Galilée (Villetaneuse, Seine-Saint-Denis)
Partenaire(s) de recherche :	Laboratoire : Laboratoire informatique de Paris-Nord (Villetaneuse, Seine-Saint-Denis ; 2001-....)
	Etablissement de préparation : Université Sorbonne Paris Nord (Bobigny, Villetaneuse, Seine-Saint-Denis ; 1970-....)
Jury :	Président / Présidente : Christophe Cérin
	Examinateurs / Examinatrices : Salima Benbernou
	Rapporteur / Rapporteuse : Gilles Venturini, Cyril de Runz

Mots clés

FR |

EN

Mots clés contrôlés

Systèmes auto-organisés

Apache Spark (langage de programmation)

Données massives

Apprentissage non supervisé (intelligence artificielle)

Mots clés libres

Clustering

Résumé

FR |

EN

Lors de ces dernières années les volumes de données analysées par les entreprises et les laboratoires de recherches ont fortement augment´es ouvrant ainsi l’`ere du BigData. Cependant ces données brutes sont fréquemment non catégorisées et difficilement exploitables. Cette thèse vise à améliorer et faciliter le pré-traitement et la comprehension de grands volumes de données en fournissant des algorithmes d’apprentissage non supervisés. La première partie de cette thèse est consacrée à un état de l’art des algorithmes de partitionnement et bi-partitionnement ainsi qu’une présentation des technologies du Big Data. La première contribution de cette thèse est dédiée à la conception de l’algorithme de clustering Self-Organizing Map ou carte auto-organisatrice [Kohonen,2001] dans un environnement Big data. Notre algorithme (SOM-MR) fournit les mêmes avantages que l’algorithme de base, à savoir la création de partition de données et leur visualisation sous la forme de carte. De plus il utilise la plateforme Spark, ce qui lui permet à la fois de traiter de grands volumes de données en peu de temps. De part la popularité de cette plateforme il s’intègre facilement dans dans de nombreux environnements de traitement de données. C’est ce que nous avons démontré dans notre projet “Square Predict” réalisé en partenariat avec l’assurance Axa. Ce projet avait pour objectif de fournir une plateforme d’analyse de données en temps r´eel afin d’évaluer la sévérité d’une catastrophe naturelle ou d’améliorer la connaissance des risques résidentiels. Durant ce projet nous avons démontré l’efficacité de notre algorithme pour analyser et fournir des visualisations à partir de grands volumes de données provenant des réseaux sociaux et d’Open data. La deuxième contribution de cette thèse est consacrée à un nouvel algorithme de BiClustering. Le BiClustering consiste `a réaliser un clustering simultanément sur les observations et les variables. Dans cette contribution nous proposons une nouvelle approche de biclustering bas´e sur l’algorithme self-organizing maps capable de passer `a l’échelle sur de grands volumes de données (BiTM-MR). Pour ce faire il est également basé sur la plateforme des technologies Big data. Mais il apporte davantage d’informations que notre algorithme SOM-MR car en plus de produire des groupes d’observations il associe des variables à ces groupes, formant ainsi des bi-groupes d’observations et variables.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage massivement distribué dans un environnement Big Data

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage massivement distribué dans un environnement Big Data

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses