Thèse soutenue

Apprentissage automatique fiable : explicabilité et quantification d'incertitude sans hypothèse de distribution

FR  |  
EN
Auteur / Autrice : Salim Ibrahim Amoukou
Direction : Nicolas Brunel
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 15/12/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne)
Référent : Université d'Évry-Val-d'Essonne (1991-....)
graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-….)
Equipe de recherche : Statistique pour la Génomique et la Génétique
Jury : Président / Présidente : Véronique Maume-Deschamps
Examinateurs / Examinatrices : Jean-Michel Loubes, Pierre Geurts, Nicolas Bousquet, Juhyun Park, Erwan Scornet
Rapporteurs / Rapporteuses : Jean-Michel Loubes, Pierre Geurts
DOI : 10.70675/a022ddcbz8047z488bzb33bz68f6b99639b2

Résumé

FR  |  
EN

Le principal objectif de cette thèse est d'accroître la confiance dans les modèles de Machine Learning en développant des outils capables d'expliquer leurs prédictions et de quantifier l'incertitude qui y est associée. La première partie de cette thèse se concentre sur les méthodes d'explication locales. Nous mettons d'abord en évidence les limites des estimateurs existants des indices de Shapley pour les modèles basés sur les arbres de décision, ainsi que les problèmes liés à leur utilisation en présence de variables catégorielles. Après avoir proposé des solutions à ces problèmes, nous démontrons que les indices de Shapley et la méthode LIME ne sont pas fiables pour fournir des explications locales. Nous introduisons ensuite de nouvelles méthodes d'explication, sous forme de mesures d'importance, de sélection de sous-ensembles de variables importantes, de règles de décision locales, d'action contrefactuelles et de contrefactuels basés sur des règles de décision. Toutes les méthodes que nous proposons sont ''model-free'', c'est-à-dire qu'elles n'ont pas besoin d'avoir accès au modèle pour effectuer des prédictions. De plus, elles n'impliquent pas la génération de nouvelles observations, évitant ainsi les problèmes d'extrapolation inhérents aux méthodes existantes qui se basent sur des prédictions utilisant des observations improbables ou impossibles, générées en combinant de manière aléatoire les attributs des variables provenant de multiples observations. En outre, les méthodes proposées se distinguent des différentes heuristiques que l'on trouve dans la littérature, car les quantités qui les définissent sont clairement définies et sont accompagnées de résultats de consistance. Dans la deuxième partie, nous analysons la prédiction conforme, qui permet de construire des intervalles prédictifs avec une garantie de couverture non asymptotique, en se basant uniquement sur l'hypothèse d'échangeabilité des observations. Nous proposons une méthode pour rendre ces intervalles plus adaptatifs, tout en garantissant le taux de couverture conditionnellement à un jeu de calibration donné.