Thèse soutenue

Flux de travail distribués sécurisés pour l’analyse des données biomédicales

FR  |  
EN
Auteur / Autrice : Wilmer Garzón-Alfonso
Direction : Mario SüdholtLuis Daniel Benavides Navarro
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/08/2023
Etablissement(s) : Ecole nationale supérieure Mines-Télécom Atlantique Bretagne Pays de la Loire en cotutelle avec Escuela Colombiana de Ingeniería Julio Garavito
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur et le numérique
Partenaire(s) de recherche : Laboratoire : Software Stack for Massively Geo-Distributed Infrastructures - Département Automatique, Productique et Informatique - Laboratoire des Sciences du Numérique de Nantes
Jury : Président / Présidente : Françoise Baude
Examinateurs / Examinatrices : Mario Südholt, Luis Daniel Benavides Navarro, Eddy Caron, Jorge Duitama, Mauricio Solar
Rapporteurs / Rapporteuses : Eddy Caron, Jorge Duitama

Résumé

FR  |  
EN  |  
ES

Ces dernières années, la quantité de données biomédicales collectées et stockées a considérablement augmenté. L’analyse de ces grandes quantités de données ne peut plus être effectuée par des individus ou des organisations uniques. Ainsi, la communauté scientifique crée des efforts de collaboration mondiaux pour étudier ces données. Cependant, les données biomédicales sont soumises à plusieurs restrictions légales et socio-économiques entravant les possibilités de collaboration en recherche. Dans cette thèse, nous étudions et montrons d’abord que les chercheurs ont besoin de nouveaux outils et techniques pour répondre aux restrictions et aux besoins des collaborations scientifiques mondiales sur les données biomédicales géo-distribuées. En particulier, nous identifions trois types de contraintes liées aux collaborations mondiales, à savoir les contraintes techniques,juridiques et socio-économiques. Nous étudions également l’état de l’art des outils actuels d’analyses biomédicales globales distribuées, y compris les outils utilisant des techniques d’apprentissage automatique, et montrons leurs limites. À partir de ces résultats, nous proposons des collaborations entièrement distribuées (FDC), qui sont des efforts de recherche qui exploitent des moyens pour exploiter et analyser de manière collaborative des informations biomédicales massives tout en respectant les restrictions légales et socio-économiques. Ici, nous étudions le concept, les propriétés et les fonctionnalités des FDC, ainsi que les exigences architecturales et les besoins en matière de sécurité et de confidentialité. Comme premier exemple de conception d’outils basés sur FDC, nous proposons une stratégie d’apprentissage automatique entièrement distribuée. La stratégie considère un algorithme de formation de forêt aléatoire où plusieurs sites géo-distribués, avec leurs propres données privées, calculent un modèle global en collaboration sans partager d’informations privées. L’algorithme proposé, appelé MuSiForest, s’améliore par rapport aux autres approches forestières multi-sites existantes en améliorant le temps de calcul et en réduisant la quantité de données partagées tout en ayant une précision d’apprentissage proche de celle des techniques forestières aléatoires centralisées. Enfin, nous étudions comment les systèmes de workflow ont été largement utilisés pour spécifier les analyses de données biomédicales, et nous montrons les limites actuelles de ces outils. Nous montrons comment ils offrent des moyens limités pour définir, déployer et exécuter des études multi-sites dans l’infrastructure distribuée d’aujourd’hui tout en respectant la propriété des données et les restrictions de confidentialité. Nous proposons ensuite FeDeRa, un langage pour spécifier, déployer et exécuter des workflows scientifiques multi-sites conformes à la FDC. Le langage est enrichi d’abstractions pour déployer l’analyse dans des infrastructures cloud géo-distribuées et d’abstractions pour définir des modèles de flux de travail complexes à travers les frontières multi-sites. FeDeRa prend en charge la programmation par flux de données et la concurrence déclarative de manière native. Nous présentons également l’implémentation d’un moteur d’exécution supportant l’exécution des workflows FeDeRa et des expérimentations déployées sur une infrastructure cloud.