Thèse en cours

Préservation de la confidentialité des données médicales dans un environnement distribué

FR  |  
EN
Auteur / Autrice : Ikhlas Mastour
Direction : Kamel BarkaouiLayth SlimanRaoudha Ben djemaa
Type : Projet de thèse
Discipline(s) : Sciences pour l'ingénieur spécialité Informatique
Date : Inscription en doctorat le 01/06/2023
Etablissement(s) : Paris, HESAM en cotutelle avec Institut Supérieur d'Informatique et des Technologies de Communication (ISITCOM) de Hammam Sousse
Ecole(s) doctorale(s) : École doctorale Sciences des métiers de l'ingénieur (Paris)
Partenaire(s) de recherche : Laboratoire : Cedric - Centre d'études et de recherche en informatique et communications
établissement de préparation de la thèse : Conservatoire national des arts et métiers (France)

Résumé

FR  |  
EN

Depuis la numérisation du système de santé, on dispose aujourd'hui de très grandes quantités des données grâce aux avancées des technologies de l'information et de la communication qui permettent de recueillir d'énormes quantités des données, de les conserver et de les analyser. D'où l'exploitation de ces données nécessite des méthodes d'analyses robustes telles que les méthodes de l'intelligence artificielle et les techniques de fouille des données (data mining) car les données générées sont parfois trop complexes et volumineuses pour être traitées par des méthodes traditionnelles. Appliquer des techniques d'intelligence artificielle sur des données biomédicales multimodales engendre un trésor d'informations et de connaissances pour le secteur de recherche médicale en permettant d'établir des prévisions fiables et de prendre des décisions rapides et précises. En effet, ces méthodes d'analyse sont utilisées pour aider les professionnels de santé à identifier les traitements les plus efficaces pour certaines pathologies ou bien les meilleures pratiques permettant d'offrir les soins les plus adaptés. Alors, ces méthodes d'analyse fournissent des outils pour transformer ces données en informations utiles pour la prise de décision et en connaissances utiles pour la recherche biomédicale. A titre d'exemple, on cite L'ACP (Analyse en Composantes Principales) qui est une méthode très utilisée dans le contexte médical et en particulièrement dans le domaine de la génétique. Comme toute nouveauté médicale, cette révolution numérique pose des questions sur l'utilisation des données biomédicales comme ingrédient de base dans les méthodes d'analyse des données telles que les algorithmes de la fouille des données ou d'apprentissage automatique. Alors, comment assurer que la vie privée des patients est conservée suite au processus d'analyse ? L'exploitation des données biomédicales au sein des méthodes d'analyse aura incontestablement des répercussions sur les droits et libertés du citoyen, en particulier sur la protection de la vie privée. En effet, la réutilisation des données médicales crée un champ de tension avec les principes relatifs à la vie privée et à la protection des données qui est strictement encadrée par la loi à travers le label HDS et le règlement RGPD. Par conséquent, l'application des algorithmes de la fouille de données ou d'apprentissage automatique doivent prendre en considération ces contraintes liées à la protection des données personnelles. Ce besoin de « privacy » est d'autant plus nécessaire quand les données viennent de plusieurs entités souhaitant collaborer. La problématique est la suivante: un groupe de n fournisseurs de données sensibles P1,P2,...,Pn détiennent conjointement un dataset, une matrice X de taille nxd (n étant le nombre d'exemple et d le nombre d'attributs). Chaque fournisseur Pi est le propriétaire exclusif d'un sous-ensemble des lignes (partitionnement horizontal) ou des colonnes (partitionnement vertical), qu'on note ici Xi, de la matrice X. L'objectif est de leur permettre de réaliser une analyse de données sur 𝑋 tout en permettant à chaque fournisseur Pi de garder secrètes ses données Xi