Exploitation de la structure des problèmes en optimisation et en apprentissage automatique respectueux de la vie privée
Auteur / Autrice : | Paul Mangold |
Direction : | Marc Tommasi, Aurélien Bellet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 11/10/2023 |
Etablissement(s) : | Université de Lille (2022-....) |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre Inria de l'Université de Lille |
Jury : | Président / Présidente : Jamal Atif |
Examinateurs / Examinatrices : Peter Richtárik, Catuscia Palamidessi, Cristóbal Guzmán, Joseph Salmon | |
Rapporteur / Rapporteuse : Katrina Ligett, Éric Moulines |
Mots clés
Résumé
Au cours des dernières décennies, les préoccupations quant à l'impact sociétal de l'apprentissage automatique se sont multipliées. En effet, si l'apprentissage automatique a prouvé son utilité dans la science, dans la vie quotidienne, ainsi que dans de nombreux autres domaines, son succès est principalement dû à la disponibilité de grands ensembles de données. Cela soulève deux préoccupations : la première concerne la confidentialité des données d'entraînement et la seconde, la possibilité de discrimination dans les prédictions d'un modèle. Le domaine de l'apprentissage automatique fiable vise à apporter des réponses techniques à ces préoccupations.Malheureusement, garantir la confidentialité des données d'entraînement, ainsi que l'équité des prédictions, diminue souvent l'utilité du modèle appris. Ce problème a suscité un grand intérêt au cours des dernières années. Cependant, la plupart des méthodes existantes (généralement basées sur la descente de gradient stochastique) ont tendance à échouer dans des scénarios courants, tels que l'entraînement de modèles en grande dimension. Dans cette thèse, nous étudions comment les propriétés structurelles des problèmes d'apprentissage automatique peuvent être exploitées pour améliorer le compromis entre la confidentialité et l'utilité, et comment cela peut affecter l'équité des prédictions.Les deux premières contributions de cette thèse sont deux nouveaux algorithmes d'optimisation respectant la confidentialité différentielle, tous deux basés sur la descente par coordonnées, visant à exploiter les propriétés structurelles du problème. Le premier algorithme est basé sur la descente par coordonnées stochastique et est en mesure d'exploiter le déséquilibre dans l'échelle des coordonnées du gradient en utilisant des grands pas d'apprentissage. Cela lui permet de trouver des modèles pertinents dans des scénarios difficiles, où la descente de gradient stochastique échoue. Le deuxième algorithme est basé sur la descente par coordonnées gloutonne. Les mises à jour gloutonnes permettent de se concentrer sur les coordonnées les plus importantes du problème, ce qui peut parfois améliorer considérablement l'utilité (par exemple, lorsque la solution du problème est parcimonieuse).La troisième contribution de cette thèse étudie les interactions entre confidentialité différentielle et équité en apprentissage automatique. Ces deux notions ont rarement été étudiées simultanément, et il existe des inquiétudes croissantes selon lesquelles la confidentialité différentielle pourrait nuire à l'équité des prédictions. Nous montrons que quand les prédictions du modèle sont lipschitziennes (par rapport à ses paramètres), les mesures d'équité de groupe présentent des propriétés de régularité intéressantes, que nous caractérisons. Ce résultat permet d'obtenir une borne sur la différence de niveaux d'équité entre un modèle privé et le modèle non-privé correspondant.