Mesurer et atténuer l'injustice d'allocation dans le processus d'apprentissage automatique
Auteur / Autrice : | Gaurav Maheshwari |
Direction : | Pascal Denis |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 27/03/2024 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | École graduée Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille |
Jury : | Président / Présidente : Christophe Gravier |
Examinateurs / Examinatrices : Aurélien Bellet, Mikaela Keller | |
Rapporteur / Rapporteuse : Anne Lauscher, Ivan Habernal |
Résumé
Avec l'arrivée de l'apprentissage automatique, les institutions gouvernementales et autres bureaucraties connaissent un changement de paradigme, car les algorithmes les assistent de plus en plus, voire remplacent certaines de leurs fonctions. Par conséquent, tout comme les philosophes du début du XXe siècle ont examiné ces changements institutionnels, il est essentiel d'analyser ces algorithmes sous l'angle de leur impact sociétal.Conformément à cet objectif général, cette thèse vise à examiner et à proposer des moyens d'atténuer les préjudices associés à l'utilisation de l'apprentissage machine. Plus précisément, nous étudions l'impact des algorithmes d'apprentissage automatique dans les contextes où des groupes de population se voient attribuer ou refuser des opportunités et des ressources de manière injuste. En réponse, nous proposons une série d'algorithmes conçus pour mesurer et contrecarrer l'injustice tout au long du processus d'apprentissage automatique. Nous commençons par proposer FairGrad, un algorithme fondé sur le gradient qui ajuste dynamiquement l'influence des exemples pendant le processus d'entraînement, afin de garantir l'équité. Ensuite, nous examinons FairGrad et divers autres mécanismes d'application d'équité sous l'angle de l'intersectionnalité, où de multiples attributs démographiques sensibles sont pris en compte simultanément. Nos expériences révèlent que plusieurs approches présentent un comportement de nivellement par le bas : elles optimisent les mesures d'équité actuelles en portant atteinte aux groupes concernés. Nous présentons une nouvelle mesure d'équité, [dollar]alpha[dollar]-Intersectional Fairness ([dollar]alpha[dollar]-Équité intersectionnelle), qui aide à mettre au jour ce phénomène.Sur la base de ces résultats, notre étape suivante se concentre sur la résolution du problème de nivellement par le bas. Pour en atténuer les effets, nous introduisons un mécanisme de génération de données qui exploite la structure hiérarchique inhérente au cadre intersectionnel et augmente les données des groupes en combinant et en transformant les données de groupes plus généraux. À travers nos expériences, nous montrons que cette approche permet non seulement de produire de nouveaux exemples réalistes, mais aussi d'améliorer les performances dans les scénarios les plus défavorables. Enfin, nous explorons l'intersection entre protection de la vie privée, autre préoccupation sociétale, et équité. Nous présentons FEDERATE, une nouvelle méthode qui combine l'apprentissage antagoniste et la confidentialité différentielle pour dériver des représentations privées qui conduisent à des résultats plus équitables. Il est intéressant de noter que nos résultats suggèrent que, dans notre contexte expérimental, vie privée et équité peuvent coexister et se complètent fréquemment.