Thèse soutenue

Améliorer l'apprentissage des arbres décisionnels

FR  |  
EN
Auteur / Autrice : Peng Yu
Direction : Albert BifetJesse Read
Type : Thèse de doctorat
Discipline(s) : Informatique, données, IA
Date : Soutenance le 11/12/2024
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....) - Laboratoire de Traitement et Communication de l'Information
Etablissement opérateur d'inscription : Télécom Paris (Palaiseau, Essonne ; 1878-....)
Jury : Président / Présidente : Daniel Aloise
Examinateurs / Examinatrices : Daniel Aloise, Pinghui Wang, Maroua Bahri, Ciprian Daniel Neagu
Rapporteur / Rapporteuse : Daniel Aloise, Pinghui Wang

Résumé

FR  |  
EN

La modélisation par arbres de décision est reconnue pour son efficacité et sa lisibilité, notamment pour les données structurées. Cette thèse s’attaque à deux défis majeurs : l’interprétabilité des arbres profonds et la gestion des variables catégorielles.Nous présentons l’algorithme Linear Tree- Shap, qui facilite l’explication du processus décisionnel en attribuant des scores d’importance à chaque noeud et variable. Parallèlement, nous proposons un cadre méthodologique pour traiter directement les variables catégorielles, améliorant à la fois la précision et la robustesse du modèle. Notre approche inclut la méthode stochastique BSplitZ, conçue pour simplifier la répartition d’un grand nombre de catégories, et explore l’emploi du critère Mean Absolute Error (MAE).Nous démontrons notamment l’inexistence d’un encodage optimal pour le MAE et résolvons un problème d’optimisation (le coût unimodal 2-median) essentiel aux opérations de scission. Ces travaux contribuent à la conception de modèles d’arbres de décision plus robustes et plus explicables, ouvrant de nouvelles perspectives pour l’apprentissage automatique.