Thèse soutenue

Extension des Programmes Génétiques pour l’apprentissage supervisé à partir de très larges Bases de Données (Big data)

FR  |  
EN
Auteur / Autrice : Hmida Hmida
Direction : Marta Rukoz-CastilloAmel Borgi
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/10/2019
Etablissement(s) : Paris Sciences et Lettres (ComUE) en cotutelle avec Université de Tunis El Manar
Ecole(s) doctorale(s) : Ecole doctorale SDOSE (Paris)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision (Paris) - Laboratoire d'analyse et modélisation de systèmes pour l'aide à la décision / LAMSADE
établissement de préparation de la thèse : Université Paris Dauphine-PSL (1968-....)
Jury : Président / Présidente : Mohamed Mohsen Gammoudi
Examinateurs / Examinatrices : Marta Rukoz-Castillo, Amel Borgi, Mohamed Mohsen Gammoudi, Cyril Fonlupt, Nadia Essoussi, Tristan Cazenave
Rapporteur / Rapporteuse : Cyril Fonlupt, Nadia Essoussi

Résumé

FR  |  
EN

Dans cette thèse, nous étudions l'adaptation des Programmes Génétiques (GP) pour surmonter l'obstacle du volume de données dans les problèmes Big Data. GP est une méta‐heuristique qui a fait ses preuves pour les problèmes de classification. Néanmoins, son coût de calcul est un frein à son utilisation avec les larges bases d’apprentissage. Tout d'abord, nous effectuons une revue approfondie enrichie par une étude comparative expérimentale des algorithmes d'échantillonnage utilisés avec GP. Puis, à partir des résultats de l'étude précédente, nous proposons quelques extensions basées sur l'échantillonnage hiérarchique. Ce dernier combine des algorithmes d'échantillonnage actif à plusieurs niveaux et s’est prouvé une solution appropriée pour mettre à l’échelle certaines techniques comme TBS et pour appliquer GP à un problème Big Data (cas de la classification des bosons de Higgs). Par ailleurs, nous formulons une nouvelle approche d'échantillonnage appelée échantillonnage adaptatif, basée sur le contrôle de la fréquence d'échantillonnage en fonction du processus d'apprentissage, selon les schémas fixe, déterministe et adaptatif. Enfin, nous présentons comment transformer une implémentation GP existante (DEAP) en distribuant les évaluations sur un cluster Spark. Nous démontrons comment cette implémentation peut être exécutée sur des clusters à nombre de nœuds réduit grâce à l’échantillonnage. Les expériences montrent les grands avantages de l'utilisation de Spark pour la parallélisation de GP.