Thèse soutenue

Clustering prédictif Décrire et prédire simultanément
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Oumaima Alaoui Ismaili
Direction : Antoine CornuéjolsVincent Lemaire
Type : Thèse de doctorat
Discipline(s) : Informatique appliquée
Date : Soutenance le 10/11/2016
Etablissement(s) : Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) : École doctorale Agriculture, alimentation, biologie, environnement, santé (Paris ; 2015-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : AgroParisTech (France ; 2007-....)
Laboratoire : Laboratoire Mathématiques et Informatique Appliquées (Paris)
Jury : Président / Présidente : Younès Bennani
Examinateurs / Examinatrices : Younès Bennani, Gilbert Saporta, Christel Vrain, Chantal Reynaud, Gilles Bisson
Rapporteurs / Rapporteuses : Gilbert Saporta, Christel Vrain

Résumé

FR  |  
EN

Le clustering prédictif est un nouvel aspect d’apprentissage supervisé dérivé du clustering standard. Les algorithmes appartenant à ce type de l’apprentissage cherchent à décrire et à prédire d’une manière simultanée. Il s’agit de découvrir la structure interne d’une variable cible. Puis munis de cette structure, de prédire la classe des nouvelles instances.Pour atteindre l’objectif de la thèse qui est la recherche d’un modèle d’apprentissage "interprétable" capable de décrire et de prédire d’une manière simultanée, nous avons choisi de modifier l’algorithme des K-moyennes standard. Cette version modifiée est nommée les K-moyennes prédictives. Elle contient 7 différentes étapes dont chacune peut être supervisée indépendamment des autres.Au cours de cette thèse, nous nous intéressons à la supervision de quatre étapes, à savoir : 1) le prétraitement des données, 2) l’initialisation des centres, 3) le choix de la meilleure partition et 4) la mesure d’importance des variables.Nos résultats expérimentaux montrent d’une part qu’avec la supervision de l’étape de prétraitement des données et de l’étape d’initialisation des centres, l’algorithme des K-moyennes prédictives parvient à avoir des performances très compétitives ou meilleures que celles obtenues par certains algorithmes de clustering prédictif.D’autre part, ces résultats expérimentaux mettent l’accent sur la capacité de nos méthodes de prétraitement à aider l’algorithme des K-moyennes prédictives à fournir des résultats facilement interprétables par l’utilisateur.Nous montrons enfin dans ce mémoire qu’avec l’aide du critère d’évaluation proposé dans cette thèse, l’algorithme des K-moyennes prédictives parvient à sélectionner la partition optimale qui réalise le bon compromis entre la description et la prédiction. Ceci permet à l’utilisateur de découvrir les différentes raisons qui peuvent mener à une même prédiction.