Thèse soutenue

Atténuation des biais de données par des méthodes de sélection de caractéristiques équitables

FR  |  
EN
Auteur / Autrice : Ginel Dorleon
Direction : Olivier TesteNathalie Souf
Type : Thèse de doctorat
Discipline(s) : Intellignece Artificielle
Date : Soutenance le 07/02/2023
Etablissement(s) : Toulouse 3
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury : Président / Présidente : Pascal Poncelet
Examinateurs / Examinatrices : Imen Megdiche Bousarsar
Rapporteurs / Rapporteuses : Omar Boussaid, Nicolas Labroche

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

La disponibilité et le recueil de données qui sont de plus en plus nombreuses mais hétérogènes, alliée au développement de travaux en intelligence artificielle (IA) basée sur l'apprentissage machine dans les masses de données, conduit à se questionner sur les impacts de l'utilisation de ces systèmes d'IA pour accompagner des décisions humaines. Dans le contexte de l'apprentissage machine, les données constituent la principale ressource pour guider les prises de décisions. Cependant, lorsque des biais existent dans les données, cela affecte de façon significative l'interprétation des décisions et pourrait avoir des conséquences considérables. Ainsi, à travers cette thèse, notre recherche se base sur la qualification des données et des biais ainsi que leurs applications dans les systèmes décisionnels. L'objectif est d'étudier les moyens d'informer sur les impacts de données d'entrées sur les résultats des systèmes décisionnels en proposant une qualification de l'importance des données et de leur biais. Le travail réalisé au cours de cette thèse aborde l'ensemble du processus décisionnel en IA dans le but de comprendre les différentes sources de biais, de les détecter et d'atténuer leurs effets sur les résultats produits pour des applications spécifiques. Au cours de la thèse, nous avons élaboré des approches et des méthodes qui permettent d'identifier, corriger les biais et d'améliorer l'équité dans les systèmes décisionnels. Nous avons établi en premier lieu une taxonomie de biais ainsi que les endroits où ils sont susceptibles d'arriver lors du développement d'un système d'IA dirigé par les données. Ce premier travail nous a permis ensuite de montrer comment la sélection des caractéristiques d'entrées peut induire des biais lorsque des attributs jugés protégés (ou leurs redondants) sont sélectionnés. Nous avons proposé une première méthode qui consiste à évaluer la redondance entre les caractéristiques pour éviter, à trop vouloir être équitable, de ne pas supprimer trop d'attributs, ce qui conduirait à une perte considérable en terme de performance. Ensuite, nous avons proposé une deuxième approche qui vise la non-prise en compte des attributs protégés dans la construction du modèle décisionnel mais plutôt leurs redondants par un compromis entre la performance et l'équité. Et finalement, pour compenser les limites de cette approche sur la non-prise en compte des attributs protégés dans la construction du modèle, nous avons opté pour une approche d'équilibrage et de non-suppression de données. A travers cette dernière approche, nous avons proposé une méthode qui vise à découper les données d'entrées en sous-groupes ("clusters") qui sont équilibrés au regard des attributs protégés. Ensuite des modèles décisionnels locaux équitables sont construits sur ces sous-groupes. Puis à l'aide d'une stratégie ensembliste, un modèle global équitable est obtenu en conservant les attributs protégés. Nous avons évalué et validé expérimentalement l'efficacité de chacune de ces contributions qui sont avérées très pertinentes au vu de notre problématique sur les biais.