Thèse soutenue

Pipelines d'Analyse Bioinformatiques : solutions offertes par les Systèmes de Workflows, Cadre de représentation et Étude de la Réutilisation

FR  |  
EN
Auteur / Autrice : Marine Djaffardjy
Direction : Sarah Cohen-BoulakiaAlban Gaignard
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/10/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
référent : Faculté des sciences d'Orsay
graduate school : Université Paris-Saclay. Graduate School Informatique et sciences du numérique (2020-....)
Jury : Président / Présidente : Caroline Appert
Examinateurs / Examinatrices : Olivier Dameron, Pierre Poulain, Marie-Dominique Devignes, Bruno Crémilleux
Rapporteurs / Rapporteuses : Olivier Dameron, Pierre Poulain

Résumé

FR  |  
EN

La bioinformatique est un domaine multidisciplinaire qui combine biologie, informatique et statistiques, permettant de mieux comprendre les mécanismes du vivant.Son fondement repose essentiellement sur l'analyse des données biologiques.L'émergence de nouvelles technologies, en particulier les avancées majeures dans le domaine du séquençage, a entraîné une croissance exponentielle des données, posant de nouveaux défis en matière d'analyse et de gestion des données.Pour exploiter ces données, des pipelines sont utilisés, enchaînant des outils et des processus informatiques pour conduire les analyses de manière fiable et efficace. Cependant, la crise de la reproductibilité dans la recherche scientifique souligne la nécessité de rendre les analyses reproductibles et réutilisables par des tiers.Les systèmes de workflows scientifiques ont émergé comme une solution pour rendre les pipelines plus structurés, compréhensibles et reproductibles. Les workflows décrivent des procédures en plusieurs étapes coordonnant des tâches et leurs dépendances de données. Ces systèmes aident les bioinformaticiens à concevoir et exécuter des workflows, et facilitent leur partage et réutilisation. En bioinformatique, les systèmes de workflows les plus populaires sont Galaxy, Snakemake, et Nextflow.Cependant, la réutilisation des workflows fait face à des difficultés, notamment l'hétérogénéité des systèmes de workflows, le manque d'accessibilité des workflows et le besoin de bases de données publiques de workflows. De plus, l'indexation et le développement de moteurs de recherche de workflows sont nécessaires pour faciliter la recherche et la réutilisation des workflows.Dans un premier temps, nous avons développé une méthode d'analyse des spécifications de workflows afin d'extraire plusieurs caractéristiques représentatives à partir d'un ensemble de données de workflows. Notre objectif était de proposer un cadre standard pour leur représentation, indépendamment de leur langage de spécification.Dans un second temps, nous avons sélectionné un ensemble de caractéristiques de ces workflows et les avons indexées dans une base de données relationnelle, puis dans un format structuré sémantique.Enfin, nous avons mis en place une approche pour détecter les similarités entre les workflows et les processeurs, permettant ainsi d'observer les pratiques de réutilisation adoptées par les développeurs de workflows.