Thèse soutenue

Modélisation intégratrice du traitement BigData

FR  |  
EN
Auteur / Autrice : Hadi Hashem
Direction : Ana Cavalli
Type : Thèse de doctorat
Discipline(s) : Réseaux, information et communications
Date : Soutenance le 19/09/2016
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Télécom SudParis (Evry ; 2012-....) - Département Réseaux et Services Multimédia Mobiles / RS2M
établissement opérateur d'inscription : Institut national des télécommunications (Evry ; 1979-2009)
Jury : Examinateurs / Examinatrices : Ana Cavalli, Noëmie Simoni, Karine Bennis-Zeitouni, Daniel Ranc, Genoveva Vargas-Solar, Florent Masseglia
Rapporteurs / Rapporteuses : Michelle Sibilla, Laurent D'Orazio

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Dans le monde d’aujourd’hui de multiples acteurs de la technologie numérique produisent des quantités infinies de données. Capteurs, réseaux sociaux ou e-commerce, ils génèrent tous de l’information qui s’incrémente en temps-réel selon les 3 V de Gartner : en Volume, en Vitesse et en Variabilité. Afin d’exploiter efficacement et durablement ces données, il est important de respecter la dynamicité de leur évolution chronologique au moyen de deux approches : le polymorphisme d’une part, au moyen d’un modèle dynamique capable de supporter le changement de type à chaque instant sans failles de traitement ; d’autre part le support de la volatilité par un modèle intelligent prenant en compte des données clé seulement interprétables à un instant « t », au lieu de traiter toute la volumétrie des données actuelle et historique.L’objectif premier de cette étude est de pouvoir établir au moyen de ces approches une vision intégratrice du cycle de vie des données qui s’établit selon 3 étapes, (1) la synthèse des données via la sélection des valeurs-clés des micro-données acquises par les différents opérateurs au niveau de la source, (2) la fusion en faisant le tri des valeurs-clés sélectionnées et les dupliquant suivant un aspect de dé-normalisation afin d’obtenir un traitement plus rapide des données et (3) la transformation en un format particulier de carte de cartes de cartes, via Hadoop dans le processus classique de MapReduce afin d’obtenir un graphe défini dans la couche applicative.Cette réflexion est en outre soutenue par un prototype logiciel mettant en oeuvre les opérateurs de modélisation sus-décrits et aboutissant à une boîte à outils de modélisation comparable à un AGL et, permettant une mise en place assistée d'un ou plusieurs traitements sur BigData