Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2016

Supervised learning of Symbolic Data and adaptation to Big Data

Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées

Résumé

This Thesis proposes new supervised methods for Symbolic Data Analysis (SDA) and extends this domain to Big Data. We start by creating a supervised method called HistSyr that converts automatically continuous variables to the most discriminant histograms for classes of individuals. We also propose a new method of symbolic decision trees that we call SyrTree. SyrTree accepts many types of inputs and target variables and can use all symbolic variables describing the target to construct the decision tree. Finally, we extend HistSyr to Big Data, by creating a distributed method called CloudHistSyr. Using the Map/Reduce framework, CloudHistSyr creates of the most discriminant histograms for data too big for HistSyr. We tested CloudHistSyr on Amazon Web Services. We show the efficiency of our method on simulated data and on actual car traffic data in Nantes. We conclude on overall utility of CloudHistSyr which, through its results, allows the study of massive data using existing symbolic analysis methods.
Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes.
Fichier principal
Vignette du fichier
pdf2star-1485170566-Haddad_these-finale.pdf (6.58 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-01485591 , version 1 (09-03-2017)

Identifiants

  • HAL Id : tel-01485591 , version 1

Citer

Raja Haddad. Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées. Traitement du texte et du document. Université Paris sciences et lettres, 2016. Français. ⟨NNT : 2016PSLED028⟩. ⟨tel-01485591⟩
596 Consultations
1412 Téléchargements

Partager

Gmail Facebook X LinkedIn More