Analyse de données multi-modales pour les Pathologies complexes par la conception et l'implémentation de Protocoles Reproductibles et Réutilisables

par Marine Djaffardjy

Projet de thèse en Informatique

Sous la direction de Sarah Cohen-Boulakia, Alain Denise et de Alban Gaignard.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Sciences et technologies de l'information et de la communication , en partenariat avec Laboratoire de Recherche en Informatique (laboratoire) , BioInfo - Bioinformatique (equipe de recherche) et de Faculté des sciences d'Orsay (référent) depuis le 01-10-2020 .


  • Résumé

    L'étude de pathologies telles les anévrismes intracrâniens nécessite l'utilisation d'une grande variété de données et la conception de protocoles d'analyse complexes. La diversité de leurs implémentations rend leur maintenance et partage difficile et limite la confiance des biologistes dans les données produites. Reproduire et réutiliser les protocoles est pourtant crucial pour comparer systématiquement les résultats biologiques, adapter des protocoles à de nouvelles problématiques et répondre aux exigences des plans de gestion de données. L'objectif de ce projet de thèse est de concevoir (i) une large bibliothèque de protocoles organisés, (ii) un module de conception et d'exécution de protocoles reproductibles, réutilisables et citables (conception d'algorithmes d'indexation et de recherche efficace de motifs dans les graphes formés par les workflows implémentant les protocoles), (iii) une évaluation de l'approche et (iv) un ensemble de critères FAIR (Findable, Accessible, Interoperable, Reusable) pour les protocoles.

  • Titre traduit

    Designing and implementing reproduceble and reuseable protocles for the analysis of multi-modal data for complex pathologies.


  • Résumé

    The study of pathologies such as intracranial aneurysms requires the use of a wide variety of data and the design of complex analysis protocols. The diversity of protocols implementations makes their maintenance and sharing difficult and limits the confidence of biologists may have in the data produced. Reproducing and reusing protocols is crucial to systematically compare biological results, adapt protocols to new problems and meet the requirements of data management plans. The objective of this thesis project is to design (i) a large library of organized protocols, (ii) a module for the design and execution of reproducible, reusable and citeable protocols (design of indexing and search algorithms efficient of patterns in the graphs formed by the workflows implementing the protocols), (iii) an evaluation of the approach on new data sets and (iv) a set of FAIR (Findable, Accessible, Interoperable, Reusable) criteria for the protocols.