Vers des explications post hoc fiables pour l'apprentissage automatique sur les données tabulaires et leurs applications
Auteur / Autrice : | Célia Ayad |
Direction : | Jesse Read |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Soutenance en 2024 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : LIX - Laboratoire d'informatique |
Jury : | Président / Présidente : Albert Bifet |
Examinateurs / Examinatrices : Jesse Read, Nistor Grozavu, Alicia Troncoso | |
Rapporteur / Rapporteuse : Nistor Grozavu, Alicia Troncoso |
Mots clés
Résumé
Alors que lapprentissage automatique continue de démontrer de solides capacités prédictives, il est devenu un outil très précieux dans plusieurs domaines scientifiques et industriels. Cependant, à mesure que les modèles ML évoluent pour atteindre une plus grande précision, ils deviennent également de plus en plus complexes et nécessitent davantage de paramètres. Être capable de comprendre les complexités internes et détablir une confiance dans les prédictions de ces modèles dapprentissage automatique est donc devenu essentiel dans divers domaines critiques, notamment la santé et la finance. Les chercheurs ont développé des méthodes dexplication pour rendre les modèles dapprentissage automatique plus transparents, aidant ainsi les utilisateurs à comprendre pourquoi les prédictions sont faites. Cependant, ces méthodes dexplication ne parviennent souvent pas à expliquer avec précision les prédictions des modèles, ce qui rend difficile leur utilisation efficace par les experts du domaine. Il est crucial d'identifier les lacunes des explications du ML, d'améliorer leur fiabilité et de les rendre plus conviviales. De plus, alors que de nombreuses tâches de ML sont de plus en plus gourmandes en données et que la demande d'intégration généralisée augmente, il existe un besoin pour des méthodes offrant de solides performances prédictives de manière plus simple et plus rentable. Dans cette thèse, nous abordons ces problèmes dans deux axes de recherche principaux: 1) Nous proposons une méthodologie pour évaluer diverses méthodes d'explicabilité dans le contexte de propriétés de données spécifiques, telles que les niveaux de bruit, les corrélations de caractéristiques et le déséquilibre de classes, et proposons des conseils aux praticiens et aux chercheurs pour sélectionner la méthode d'explicabilité la plus appropriée en fonction des caractéristiques de leurs ensembles de données, révélant où ces méthodes excellent ou échouent. De plus, nous fournissons aux cliniciens des explications personnalisées sur les facteurs de risque du cancer du col de lutérus en fonction de leurs propriétés souhaitées telles que la facilité de compréhension, la cohérence et la stabilité. 2) Nous introduisons Shapley Chains, une nouvelle technique d'explication conçue pour surmonter le manque d'explications conçues pour les cas à sorties multiples où les étiquettes sont interdépendantes, où les caractéristiques peuvent avoir des contributions indirectes pour prédire les étiquettes ultérieures dans la chaîne (l'ordre dans lequel ces étiquettes sont prédit). De plus, nous proposons Bayes LIME Chains pour améliorer la robustesse de Shapley Chains.