Affinage de l'évaluation en apprentissage automatique : perspectives statistiques sur la performance des modèles et leur équité
Auteur / Autrice : | Michaël Soumm |
Direction : | Bertrand Delezoide, Adrian Popescu |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 16/12/2024 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'intégration des systèmes et des technologies (Gif-sur-Yvette, Essonne ; 2001-....) |
Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....) | |
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-….) | |
Jury : | Président / Présidente : Titus Bogdan Zaharia |
Examinateurs / Examinatrices : Mihai Ciuc, Ana Garcia-Serrano, Etienne Boursier | |
Rapporteurs / Rapporteuses : Titus Bogdan Zaharia, Mihai Ciuc |
Mots clés
Résumé
Cette thèse aborde les limitations des méthodologies d’évaluation en apprentissage automatique en introduisant des approches statistiques rigoureuses adaptées de l’économétrie. À travers des applications dans trois domaines distincts de l’apprentissage automatique, nous démontrons comment les outils statistiques peuvent améliorer la robustesse, l’interprétabilité, et l’équité de l’évaluation des modèles. Dans l’apprentissage incrémental de classes, nous examinons l’importance des méthodes de pré-entraînement par rapport au choix de l’algorithme incrémental et montrons que celles-ci sont décisives dans les performance finales ; dans les systèmes de reconnaissance faciale, nous quantifions les biais démographiques et démontrons que des données synthétiques équilibrées démographiquement peuvent réduire significativement les disparités de performance entre les groupes ethniques ; dans les systèmes de recommandation, nous développons de nouvelles mesures basées sur la théorie de l’information pour analyser les variations de performance entre les profils d’utilisateurs, révélant que les méthodes d’apprentissage profond ne surpassent pas systématiquement les approches traditionnelles et soulignant l’importance des schémas comportementaux des utilisateurs. Ces résultats démontrent l’importance de la rigueur statistique dans l’évaluation de l’apprentissage automatique et fournissent des lignes directrices pratiques pour améliorer l’évaluation des modèles dans diverses applications.