Améliorer l'apprentissage des arbres décisionnels
Auteur / Autrice : | Peng Yu |
Direction : | Albert Bifet, Jesse Read |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique, données, IA |
Date : | Soutenance le 11/12/2024 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information |
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....) | |
Jury : | Président / Présidente : Daniel Aloise |
Examinateurs / Examinatrices : Daniel Aloise, Pinghui Wang, Maroua Bahri, Ciprian Daniel Neagu | |
Rapporteur / Rapporteuse : Daniel Aloise, Pinghui Wang |
Mots clés
Mots clés contrôlés
Résumé
La modélisation par arbres de décision est reconnue pour son efficacité et sa lisibilité, notamment pour les données structurées. Cette thèse s’attaque à deux défis majeurs : l’interprétabilité des arbres profonds et la gestion des variables catégorielles.Nous présentons l’algorithme Linear Tree- Shap, qui facilite l’explication du processus décisionnel en attribuant des scores d’importance à chaque noeud et variable. Parallèlement, nous proposons un cadre méthodologique pour traiter directement les variables catégorielles, améliorant à la fois la précision et la robustesse du modèle. Notre approche inclut la méthode stochastique BSplitZ, conçue pour simplifier la répartition d’un grand nombre de catégories, et explore l’emploi du critère Mean Absolute Error (MAE).Nous démontrons notamment l’inexistence d’un encodage optimal pour le MAE et résolvons un problème d’optimisation (le coût unimodal 2-median) essentiel aux opérations de scission. Ces travaux contribuent à la conception de modèles d’arbres de décision plus robustes et plus explicables, ouvrant de nouvelles perspectives pour l’apprentissage automatique.