Fondements de l'interprétabilité de l'apprentissage automatique
Auteur / Autrice : | Gianluigi Lopardo |
Direction : | Damien Garreau, Frédéric Precioso |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 14/10/2024 |
Etablissement(s) : | Université Côte d'Azur |
Ecole(s) doctorale(s) : | École doctorale Sciences fondamentales et appliquées |
Partenaire(s) de recherche : | Laboratoire : Laboratoire J.-A. Dieudonné (Nice) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes) |
Jury : | Président / Présidente : Céline Hudelot |
Examinateurs / Examinatrices : Damien Garreau, Frédéric Precioso, Céline Hudelot, Jean-Michel Loubès, Ulrike von Luxburg, Tim Van Erven | |
Rapporteur / Rapporteuse : Céline Hudelot, Jean-Michel Loubès |
Mots clés
Résumé
L'utilisation croissante de modèles complexes d'apprentissage automatique (ML), en particulier dans des applications critiques, a souligné le besoin urgent de méthodes d'interprétabilité. Malgré la variété de solutions proposées pour expliquer les décisions algorithmiques automatisées, comprendre leur processus de prise de décision reste un défi. Ce manuscrit examine l'interprétabilité des modèles ML, utilisant une analyse mathématique et une évaluation empirique pour comparer les méthodes existantes et proposer de nouvelles solutions. Notre principal objectif est sur les méthodes d'interprétabilité post-hoc, qui fournissent des informations sur le processus de prise de décision des modèles de ML après l'entraînement, indépendamment des architectures de modèles spécifiques. Nous nous intéressons plus particulièrement du langage naturel, explorant des techniques pour expliquer les modèles de texte. Nous abordons un défi clé : les méthodes d'interprétabilité peuvent produire des explications variées même pour des modèles apparemment simples. Cela met en évidence un problème critique : l'absence d'une base théorique solide pour ces méthodes. Pour tenter de résoudre ce problème, nous utilisons un cadre théorique rigoureux pour analyser formellement les techniques d'interprétabilité existantes, évaluant leur comportement et leurs limites. Sur cette base, nous proposons un nouvel explicateur pour fournir une approche plus fidèle et robuste pour interpréter les modèles de données textuelles. Nous nous engageons également dans le débat sur l'efficacité des poids d'attention comme outils explicatifs au sein des architectures de transformateurs puissants. Grâce à cette analyse, nous éclairons les forces et les limites des méthodes d'interprétabilité existantes et ouvrons la voie à des approches plus fiables et théoriquement fondées. Cela conduira à une compréhension plus profonde de la façon dont les modèles prennent des décisions, favorisant la confiance et le déploiement responsable dans les applications ML critiques.