Towards Reliable Post Hoc Explanations for Machine Learning on Tabular Data and their Applications

Célia Ayad

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Vers des explications post hoc fiables pour l'apprentissage automatique sur les données tabulaires et leurs applications

FR |

EN

Auteur / Autrice :	Célia Ayad
Direction :	Jesse Read
Type :	Thèse de doctorat
Discipline(s) :	Mathématiques et Informatique
Date :	Soutenance le 25/09/2024
Etablissement(s) :	Institut polytechnique de Paris
Ecole(s) doctorale(s) :	École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....) - Laboratoire d'informatique de l'École polytechnique [Palaiseau] / LIX
Jury :	Président / Présidente : Albert Bifet
	Examinateurs / Examinatrices : Jesse Read, Nistor Grozavu, Alicia Troncoso Lora
	Rapporteurs / Rapporteuses : Nistor Grozavu, Alicia Troncoso Lora

Mots clés

FR |

EN

Mots clés contrôlés

Modèles stochastiques d'apprentissage

Apprentissage non supervisé (intelligence artificielle)

Apprentissage automatique

Mots clés libres

Apprentissage automatique

Apprentissage non supervisé (intelligence artificielle)

Modèles stochastiques d'apprentissage

Résumé

FR |

EN

Alors que l’apprentissage automatique continue de démontrer de solides capacités prédictives, il est devenu un outil très précieux dans plusieurs domaines scientifiques et industriels. Cependant, à mesure que les modèles ML évoluent pour atteindre une plus grande précision, ils deviennent également de plus en plus complexes et nécessitent davantage de paramètres.Être capable de comprendre les complexités internes et d’établir une confiance dans les prédictions de ces modèles d’apprentissage automatique est donc devenu essentiel dans divers domaines critiques, notamment la santé et la finance.Les chercheurs ont développé des méthodes d’explication pour rendre les modèles d’apprentissage automatique plus transparents, aidant ainsi les utilisateurs à comprendre pourquoi les prédictions sont faites. Cependant, ces méthodes d’explication ne parviennent souvent pas à expliquer avec précision les prédictions des modèles, ce qui rend difficile leur utilisation efficace par les experts du domaine. Il est crucial d'identifier les lacunes des explications du ML, d'améliorer leur fiabilité et de les rendre plus conviviales. De plus, alors que de nombreuses tâches de ML sont de plus en plus gourmandes en données et que la demande d'intégration généralisée augmente, il existe un besoin pour des méthodes offrant de solides performances prédictives de manière plus simple et plus rentable.Dans cette thèse, nous abordons ces problèmes dans deux axes de recherche principaux:1) Nous proposons une méthodologie pour évaluer diverses méthodes d'explicabilité dans le contexte de propriétés de données spécifiques, telles que les niveaux de bruit, les corrélations de caractéristiques et le déséquilibre de classes, et proposons des conseils aux praticiens et aux chercheurs pour sélectionner la méthode d'explicabilité la plus appropriée en fonction des caractéristiques de leurs ensembles de données, révélant où ces méthodes excellent ou échouent.De plus, nous fournissons aux cliniciens des explications personnalisées sur les facteurs de risque du cancer du col de l’utérus en fonction de leurs propriétés souhaitées telles que la facilité de compréhension, la cohérence et la stabilité.2) Nous introduisons Shapley Chains, une nouvelle technique d'explication conçue pour surmonter le manque d'explications conçues pour les cas à sorties multiples où les étiquettes sont interdépendantes, où les caractéristiques peuvent avoir des contributions indirectes pour prédire les étiquettes ultérieures dans la chaîne (l'ordre dans lequel ces étiquettes sont prédit). De plus, nous proposons Bayes LIME Chains pour améliorer la robustesse de Shapley Chains.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Vers des explications post hoc fiables pour l'apprentissage automatique sur les données tabulaires et leurs applications

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Vers des explications post hoc fiables pour l'apprentissage automatique sur les données tabulaires et leurs applications

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses