Explicabilité et contrôle des modèles à base d'arbres dans un contexte de données déséquilibrées.
Auteur / Autrice : | Abdoulaye Sakho |
Direction : | Erwan Scornet |
Type : | Projet de thèse |
Discipline(s) : | Mathématiques |
Date : | Inscription en doctorat le 18/12/2023 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de probabilités, statistique et modélisation (Paris ; 2018-....) |
Mots clés
Mots clés libres
Résumé
Ce projet de thèse vise tout d'abord à apporter un éclairage méthodologique sur les différentes approches de rééquilibrage des données (sorties déséquilibrées dans des problèmes de classification). De nombreuses procédures existent et il n'existe pas, à ce jour, de revue claire permettant de proposer une heuristique rigoureuse. Ce projet de thèse s'inscrit dans la thématique de l'interprétabilité des algorithmes d'apprentissage supervisé. Nous étudierons notamment l'impact du rééquilibrage des données sur les indices d'importance de variables, couramment utilisés pour interpréter les méthodes d'ensemble d'arbres (forêts aléatoires, XGBoost).Enfin, une autre approche de l'interprétabilité consiste à contraindre les prédicteurs à avoir une forme simple et spécifique. Nous étudierons ainsi les techniques forçant la monotonie des arbres de décision.