Auteur / Autrice : | Oumaima Alaoui Ismaili |
Direction : | Antoine Cornuéjols, Vincent Lemaire |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique appliquée |
Date : | Soutenance le 10/11/2016 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Agriculture, alimentation, biologie, environnement, santé (Paris ; 2015-....) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : AgroParisTech (France ; 2007-....) |
Laboratoire : Laboratoire Mathématiques et Informatique Appliquées (Paris) | |
Jury : | Président / Présidente : Younès Bennani |
Examinateurs / Examinatrices : Younès Bennani, Gilbert Saporta, Christel Vrain, Chantal Reynaud, Gilles Bisson | |
Rapporteurs / Rapporteuses : Gilbert Saporta, Christel Vrain |
Mots clés
Résumé
Le clustering prédictif est un nouvel aspect d’apprentissage supervisé dérivé du clustering standard. Les algorithmes appartenant à ce type de l’apprentissage cherchent à décrire et à prédire d’une manière simultanée. Il s’agit de découvrir la structure interne d’une variable cible. Puis munis de cette structure, de prédire la classe des nouvelles instances.Pour atteindre l’objectif de la thèse qui est la recherche d’un modèle d’apprentissage "interprétable" capable de décrire et de prédire d’une manière simultanée, nous avons choisi de modifier l’algorithme des K-moyennes standard. Cette version modifiée est nommée les K-moyennes prédictives. Elle contient 7 différentes étapes dont chacune peut être supervisée indépendamment des autres.Au cours de cette thèse, nous nous intéressons à la supervision de quatre étapes, à savoir : 1) le prétraitement des données, 2) l’initialisation des centres, 3) le choix de la meilleure partition et 4) la mesure d’importance des variables.Nos résultats expérimentaux montrent d’une part qu’avec la supervision de l’étape de prétraitement des données et de l’étape d’initialisation des centres, l’algorithme des K-moyennes prédictives parvient à avoir des performances très compétitives ou meilleures que celles obtenues par certains algorithmes de clustering prédictif.D’autre part, ces résultats expérimentaux mettent l’accent sur la capacité de nos méthodes de prétraitement à aider l’algorithme des K-moyennes prédictives à fournir des résultats facilement interprétables par l’utilisateur.Nous montrons enfin dans ce mémoire qu’avec l’aide du critère d’évaluation proposé dans cette thèse, l’algorithme des K-moyennes prédictives parvient à sélectionner la partition optimale qui réalise le bon compromis entre la description et la prédiction. Ceci permet à l’utilisateur de découvrir les différentes raisons qui peuvent mener à une même prédiction.