Contributions à l'apprentissage automatique interprétable : applications aux données de systèmes industriels à grande échelle
Auteur / Autrice : | Graziano Mita |
Direction : | Pietro Michiardi |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 27/04/2021 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Institut EURECOM (Sophia-Antipolis, Alpes-Maritimes ; 1992-....) |
Jury : | Président / Présidente : Maurizio Filippone |
Examinateurs / Examinatrices : Zeynep Akata | |
Rapporteurs / Rapporteuses : Serena Villata, Giovanni Neglia |
Résumé
Les contributions présentées dans cette thèse sont doubles. Nous fournissons d'abord un aperçu général de l'apprentissage automatique interprétable, en établissant des liens avec différents domaines, en introduisant une taxonomie des approches d'explicabilité. Nous nous concentrons sur l'apprentissage des règles et proposons une nouvelle approche de classification, LIBRE, basée sur la synthèse de fonction booléenne monotone. LIBRE est une méthode ensembliste qui combine les règles candidates apprises par plusieurs apprenants faibles ascendants avec une simple union, afin d'obtenir un ensemble final de règles interprétables. LIBRE traite avec succès des données équilibrés et déséquilibrés, atteignant efficacement des performances supérieures et une meilleure interprétabilité par rapport aux plusieurs approches. L'interprétabilité des représentations des données constitue la deuxième grande contribution à ce travail. Nous limitons notre attention à l'apprentissage des représentations démêlées basées sur les autoencodeurs variationnels pour apprendre des représentations sémantiquement significatives. Des contributions récentes ont démontré que le démêlage est impossible dans des contextes purement non supervisés. Néanmoins, nous présentons une nouvelle méthode, IDVAE, avec des garanties théoriques sur le démêlage, dérivant de l'emploi d'une distribution a priori exponentiel optimal factorisé, conditionnellement dépendant de variables auxiliaires complétant les observations d'entrée. Nous proposons également une version semi-supervisée de notre méthode. Notre campagne expérimentale montre qu'IDVAE bat souvent ses concurrents selon plusieurs métriques de démêlage.