Thèse soutenue

Fondements de l'interprétabilité de l'apprentissage automatique

FR  |  
EN
Auteur / Autrice : Gianluigi Lopardo
Direction : Damien GarreauFrédéric Precioso
Type : Thèse de doctorat
Discipline(s) : Mathématiques
Date : Soutenance le 14/10/2024
Etablissement(s) : Université Côte d'Azur
Ecole(s) doctorale(s) : École doctorale Sciences fondamentales et appliquées
Partenaire(s) de recherche : Laboratoire : Laboratoire J.-A. Dieudonné (Nice) - Institut national de recherche en informatique et en automatique (France). Unité de recherche (Sophia Antipolis, Alpes-Maritimes)
Jury : Président / Présidente : Céline Hudelot
Examinateurs / Examinatrices : Damien Garreau, Frédéric Precioso, Céline Hudelot, Jean-Michel Loubès, Ulrike von Luxburg, Tim Van Erven
Rapporteur / Rapporteuse : Céline Hudelot, Jean-Michel Loubès

Résumé

FR  |  
EN

L'utilisation croissante de modèles complexes d'apprentissage automatique (ML), en particulier dans des applications critiques, a souligné le besoin urgent de méthodes d'interprétabilité. Malgré la variété de solutions proposées pour expliquer les décisions algorithmiques automatisées, comprendre leur processus de prise de décision reste un défi. Ce manuscrit examine l'interprétabilité des modèles ML, utilisant une analyse mathématique et une évaluation empirique pour comparer les méthodes existantes et proposer de nouvelles solutions. Notre principal objectif est sur les méthodes d'interprétabilité post-hoc, qui fournissent des informations sur le processus de prise de décision des modèles de ML après l'entraînement, indépendamment des architectures de modèles spécifiques. Nous nous intéressons plus particulièrement du langage naturel, explorant des techniques pour expliquer les modèles de texte. Nous abordons un défi clé : les méthodes d'interprétabilité peuvent produire des explications variées même pour des modèles apparemment simples. Cela met en évidence un problème critique : l'absence d'une base théorique solide pour ces méthodes. Pour tenter de résoudre ce problème, nous utilisons un cadre théorique rigoureux pour analyser formellement les techniques d'interprétabilité existantes, évaluant leur comportement et leurs limites. Sur cette base, nous proposons un nouvel explicateur pour fournir une approche plus fidèle et robuste pour interpréter les modèles de données textuelles. Nous nous engageons également dans le débat sur l'efficacité des poids d'attention comme outils explicatifs au sein des architectures de transformateurs puissants. Grâce à cette analyse, nous éclairons les forces et les limites des méthodes d'interprétabilité existantes et ouvrons la voie à des approches plus fiables et théoriquement fondées. Cela conduira à une compréhension plus profonde de la façon dont les modèles prennent des décisions, favorisant la confiance et le déploiement responsable dans les applications ML critiques.