Thèse soutenue

Gestion et optimisation de l’architecture logistique de lacs de données

FR  |  
EN
Auteur / Autrice : Marzieh Derakhshannia
Direction : Anne LaurentArnaud MartinHicham Hajj-Hassan
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/06/2022
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Marianne Huchard
Examinateurs / Examinatrices : Anne Laurent, Arnaud Martin, Hicham Hajj-Hassan, Marianne Huchard, Sadok Ben Yahia, Jérôme Darmont, François Bretagnolle
Rapporteurs / Rapporteuses : Sadok Ben Yahia, Jérôme Darmont

Résumé

FR  |  
EN

Le monde numérique en constante évolution donne naissance au précieux concept "data" que l’on appelle l’or noir. Conformément à cette évolution, les systèmes de gestion de données, qui jouent des rôles importants dans la valorisation des données générées, deviennent un élément essentiel dans les systèmes d’information et pour les processus de prise de décision. Avec la révolution digitale, les données sont générées chaque seconde en gros volumes, par de multiples sources et dans différents formats. Il est communément admis que ces données brutes peuvent être exploitées pour extraire de la valeur. L’hétérogénéité des données sources se traduit par un besoin de systèmes intégrés pour stocker, traiter et analyser efficacement des données massives et éparpillées. Le phénomène de données massives, qui est connu sous le nom de mégadonnées, exige un système décisionnel avec une architecture souple qui stocke les données hétérogènes et soutient les caractéristiques principales de mégadonnées comme le volume, la variété, la vélocité, la vitesse et la véracité. Le lac de données, qui est un système de stockage centralisé, est une bonne réponse à ces problèmes posés afin accueillir à grande échelle des données brutes sous leurs formats natifs. Par rapport à cet objectif, il est évident que l’architecture et l’infrastructure du lac de données ont un impact significatif sur la rentabilité et la fonctionnalité du système global. À cet égard, la conception et la gestion de la structure du lac de données nécessitent des méthodes pratiques et innovantes afin de réaliser un référentiel centralisé intégré et optimal. En considérant la structure systématique du lac de données ainsi que l’architecture globale des systèmes, une vision logistique pourrait nous conduire aux objectifs définis.La chaîne d’approvisionnement est un bon exemple de systèmes logistiques où les participants hiérarchiques se coordonnent au sein d’un réseau intégré afin de préparer un produit ou de rendre des services aux consommateurs ciblés. La structure logistique ainsi que les stratégies de gestion de la chaîne d’approvisionnement pourraient être une source d’inspiration innovante pour concevoir, gérer et optimiser un système de gestion de données basé sur une vision logistique. Pour cette raison, la mise en œuvre de la méthode analogique entre structures systématiques clarifie dans quelle mesure on pourrait tirer parti des stratégies gestionnaires dérivées de la chaîne d’approvisionnement pour développer l’architecture et les performances du lac de données.Dans cette thèse, nous émettons l’hypothèse qu’il est possible de décrire un lac de données et ses fonctionnalités en le comparant à la structure logistique d’une chaîne d’approvisionnement. Sur la base de ces objectifs :Dans un premier temps, nous nous intéressons à plusieurs architectures de lacs de données et vérifions l’efficacité de ces architectures sur la performance de lac de données notamment par rapport à la gouvernance des données et la qualité de service. Dans un deuxième temps, nous introduisons la chaîne d’approvisionnement, gestion de la chaîne logistique et les méthodes qui sont utilisés fréquemment pour optimiser la chaîne d’approvisionnement. En outre nous comparons tous les éléments de ce système logistique avec un lac de données et nous nous focalisons sur leurs points similaires afin d’utiliser les méthodes de gestion de la chaîne d’approvisionnement pour le lac de données. Dans un troisième temps, nous proposons une nouvelle architecture pour les lacs de données basée sur la définition de chaîne d’approvisionnement grâce au processus évolutif de modélisation des structures des lacs de données. Nous terminons ce travail en optimisant l’architecture de lac de données proposée avec des stratégies de conception de réseau de chaîne d’approvisionnement et proposons des méthodes pour résoudre le modèle d’optimisation mathématique défini.