Thèse soutenue

Apprentissage supervisé de données symboliques et l'adaptation aux données massives et distribuées

FR  |  
EN
Auteur / Autrice : Raja Haddad
Direction : Witold Litwin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/11/2016
Etablissement(s) : Paris Sciences et Lettres (ComUE)
Ecole(s) doctorale(s) : Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche : Etablissement de préparation de la thèse : Université Paris Dauphine-PSL (1968-....)
Entreprise : Syrokko (Tremblay en France (France))
Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris)
Jury : Président / Présidente : Darrell Long
Examinateurs / Examinatrices : Darrell Long, Philippe Rigaux, Rosanna Verde, Edwin Diday, Daniela Grigori, Filipe Afonso
Rapporteurs / Rapporteuses : Philippe Rigaux, Rosanna Verde

Résumé

FR  |  
EN

Cette thèse a pour but l'enrichissement des méthodes supervisées d'analyse de données symboliques et l'extension de ce domaine aux données volumineuses, dites "Big Data". Nous proposons à cette fin une méthode supervisée nommée HistSyr. HistSyr convertit automatiquement les variables continues en histogrammes les plus discriminants pour les classes d'individus. Nous proposons également une nouvelle méthode d'arbres de décision symbolique, dite SyrTree. SyrTree accepte tous plusieurs types de variables explicatives et à expliquer pour construire l'arbre de décision symbolique. Enfin, nous étendons HistSyr aux Big Data, en définissant une méthode distribuée nommée CloudHistSyr. CloudHistSyr utilise Map/Reduce pour créer les histogrammes les plus discriminants pour des données trop volumineuses pour HistSyr. Nous avons testé CloudHistSyr sur Amazon Web Services (AWS). Nous démontrons la scalabilité et l’efficacité de notre méthode sur des données simulées et sur les données expérimentales. Nous concluons sur l’utilité de CloudHistSyr qui , grâce à ses résultats, permet l'étude de données massives en utilisant les méthodes d'analyse symboliques existantes.