Données de santé : Exploration des mécanismes émergents de protection de la vie privée
Auteur / Autrice : | Thomas Lebrun |
Direction : | Mathieu Cunche |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 05/12/2024 |
Etablissement(s) : | Lyon, INSA |
Ecole(s) doctorale(s) : | École doctorale InfoMaths (Lyon ; 2009-....) |
Partenaire(s) de recherche : | Membre de : Université de Lyon (2015-....) |
Laboratoire : CITI - Centre d'Innovation en Télécommunications et Intégration de services (Lyon, INSA) - CITI Centre of Innovation in Telecommunications and Integration of services / CITI | |
Equipe de recherche : PRIVATICS - Privacy Models, Architectures and Tools for the Information Society | |
Jury : | Président / Présidente : Sonia Ben Mokhtar |
Examinateurs / Examinatrices : Mathieu Cunche, Sonia Ben Mokhtar, Emmanuel Vincent, Benjamin Nguyen, Szilvia Lestyan, Jérémie Decouchant, Antoine Boutet | |
Rapporteur / Rapporteuse : Emmanuel Vincent, Benjamin Nguyen |
Mots clés
Mots clés contrôlés
Résumé
Les données de santé représentent une grande quantité d'informations, générées quotidiennement et sensibles par nature. Cependant, leur partage est essentiel pour l'avancement de la recherche et, en fin de compte, l'amélioration des soins aux patients. L’utilisation des données médicales est confrontée à des limitations dues à leur sensibilité et à la nécessité de garantir la confidentialité, encadrée par les réglementations en vigueur. Cela nécessite une protection renforcée. L’intérêt pour des alternatives au partage de données brutes, telles que la pseudonymisation ou l’anonymisation, augmente avec les besoins d’accès à des données d’apprentissage pour l’utilisation de l’intelligence artificielle, qui requiert de grandes quantités de données pour fonctionner efficacement en tant qu’assistant médical. Dans cette thèse, nous examinons de nouveaux mécanismes respectant la vie privée, rendues possibles par les avancées rapides de l’intelligence artificielle. Plus spécifiquement, mon analyse porte sur l’amélioration d’alternatives à la centralisation de données sensibles : l’apprentissage fédéré, une méthode décentralisée d’entraînement des modèles d’Intelligence Artificielles qui ne nécessitent pas le partage de données, ainsi que de la génération de données synthétiques, qui crée des données artificielles avec des propriétés statistiques similaires aux données réelles. Considérant l’absence de consensus pour l’évaluation de la confidentialité de ces nouvelles approches, nous avons axé notre travail sur la mesure méthodique de la fuite de confidentialité ainsi que la balance avec l'utilité des données synthétiques ou du modèle d'apprentissage fédéré. Mes travaux incluent un mécanisme pour améliorer les propriétés de confidentialité de l'apprentissage fédéré ainsi qu'une nouvelle méthode de génération conditionnelle de données synthétiques. Cette thèse vise à contribuer au développement de cadres plus robustes pour le partage sécurisé des données de santé, en conformité avec les exigences réglementaires, facilitant ainsi des innovations en matière de santé.