Apprentissage automatique fiable : explicabilité et quantification d'incertitude sans hypothèse de distribution
| Auteur / Autrice : | Salim Ibrahim Amoukou |
| Direction : | Nicolas Brunel |
| Type : | Thèse de doctorat |
| Discipline(s) : | Mathématiques appliquées |
| Date : | Soutenance le 15/12/2023 |
| Etablissement(s) : | université Paris-Saclay |
| Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) |
| Partenaire(s) de recherche : | Laboratoire : Laboratoire de Mathématiques et Modélisation d'Évry (Evry, Essonne) |
| Référent : Université d'Évry-Val-d'Essonne (1991-....) | |
| graduate school : Université Paris-Saclay. Graduate School Mathématiques (2020-….) | |
| Equipe de recherche : Statistique pour la Génomique et la Génétique | |
| Jury : | Président / Présidente : Véronique Maume-Deschamps |
| Examinateurs / Examinatrices : Jean-Michel Loubes, Pierre Geurts, Nicolas Bousquet, Juhyun Park, Erwan Scornet | |
| Rapporteurs / Rapporteuses : Jean-Michel Loubes, Pierre Geurts | |
| DOI : | 10.70675/a022ddcbz8047z488bzb33bz68f6b99639b2 |
Mots clés
Résumé
Le principal objectif de cette thèse est d'accroître la confiance dans les modèles de Machine Learning en développant des outils capables d'expliquer leurs prédictions et de quantifier l'incertitude qui y est associée. La première partie de cette thèse se concentre sur les méthodes d'explication locales. Nous mettons d'abord en évidence les limites des estimateurs existants des indices de Shapley pour les modèles basés sur les arbres de décision, ainsi que les problèmes liés à leur utilisation en présence de variables catégorielles. Après avoir proposé des solutions à ces problèmes, nous démontrons que les indices de Shapley et la méthode LIME ne sont pas fiables pour fournir des explications locales. Nous introduisons ensuite de nouvelles méthodes d'explication, sous forme de mesures d'importance, de sélection de sous-ensembles de variables importantes, de règles de décision locales, d'action contrefactuelles et de contrefactuels basés sur des règles de décision. Toutes les méthodes que nous proposons sont ''model-free'', c'est-à-dire qu'elles n'ont pas besoin d'avoir accès au modèle pour effectuer des prédictions. De plus, elles n'impliquent pas la génération de nouvelles observations, évitant ainsi les problèmes d'extrapolation inhérents aux méthodes existantes qui se basent sur des prédictions utilisant des observations improbables ou impossibles, générées en combinant de manière aléatoire les attributs des variables provenant de multiples observations. En outre, les méthodes proposées se distinguent des différentes heuristiques que l'on trouve dans la littérature, car les quantités qui les définissent sont clairement définies et sont accompagnées de résultats de consistance. Dans la deuxième partie, nous analysons la prédiction conforme, qui permet de construire des intervalles prédictifs avec une garantie de couverture non asymptotique, en se basant uniquement sur l'hypothèse d'échangeabilité des observations. Nous proposons une méthode pour rendre ces intervalles plus adaptatifs, tout en garantissant le taux de couverture conditionnellement à un jeu de calibration donné.