Étude du profil risque-utilité de méthodes non paramétriques de génération de microdonnées entièrement synthétiques pour des applications statistiques et d'apprentissage automatique.
Auteur / Autrice : | Rémy Chapelle |
Direction : | Bruno Falissard, Nicolas Vayatis |
Type : | Projet de thèse |
Discipline(s) : | Biostatistiques et data sciences |
Date : | Inscription en doctorat le 30/11/2023 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Santé Publique |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en épidémiologie et Santé des populations |
Equipe de recherche : Psychiatrie du développement et trajectoires | |
Référent : Faculté de médecine |
Mots clés
Résumé
En recherche biomédicale, le nombre de résultats publiés a suivi une évolution exponentielle au cours des dernières décennies. Cela suggère une évolution analogue du volume de données recueillies dans le cadre d'études originales. Les principes de Science Ouverte, visant notamment à promouvoir l'intégrité scientifique et à stimuler les collaborations, invitent à rendre ces données librement accessibles au plus grand nombre. Toutefois, ces principes se heurtent au droit au respect de la confidentialité des participants aux études impliquant la personne humaine. Les méthodes d'anonymisation classiques proposées pour répondre à ce défi sont peu opérantes en pratique, soit parce qu'elles ne fournissent pas de garantie formelle de confidentialité, soit parce qu'elles ne sont pas directement compatibles avec les outils statistiques usuels. Au cours des deux dernières décennies, la génération de données synthétiques a émergé comme une alternative séduisante à ces méthodes. Des données sont dites synthétiques lorsqu'elles visent à reproduire les propriétés statistiques de données originales, tout en étant uniquement composées d'observations fictives. Cette voie est actuellement à l'étude dans le cadre du projet Open-CESP porté par le Centre de Recherche en Épidémiologie et Santé des Populations (CESP). Ce projet vise à rendre librement accessible des microdonnées synthétiques issues de recherches menées par le Centre. La méthode de génération de données synthétiques actuellement envisagée a démontré des qualités intéressantes sur un jeu de données test. Toutefois, elle n'a pas fait la preuve de son optimalité pour répondre aux objectifs de l'Open-CESP. Par ailleurs, certaines étapes de pré- et post-traitement de ces données semblent présenter un haut potentiel de développement théorique. Dans ce contexte, l'objectif de ce projet de doctorat est de développer cette méthode de synthèse et de la comparer à des méthodes alternatives en établissant leurs profils de risque-utilité respectifs. Pour cela, des métriques de confidentialité seront établies, de même que des modèles formels de protection contre certains types de risque d'atteinte à la confidentialité. L'application de ces outils à des jeux de données variés issus du CESP et du Centre Borelli, et à leurs équivalents synthétiques, permettra de quantifier le niveau de risque associé à différentes méthodes de synthèse. Une approche similaire permettra d'apprécier leur niveau d'utilité. Le tout servira à établir le profil risque-utilité de ces méthodes en vue d'une discussion critique de leurs performances respectives. En plus de fournir des arguments utiles au choix des méthodes à utiliser dans le cadre de l'Open-CESP, ce travail devrait améliorer la compréhension des principaux mécanismes de synthèse existants et de leurs vulnérabilités intrinsèques à différents types d'attaques. Des points d'amélioration de ces méthodes devraient ainsi émerger, représentant une contribution significative au domaine général de la synthèse de données.