Thèse soutenue

Traitement très performant des données métagénomiques quantitatives

FR  |  
EN
Auteur / Autrice : Quang Minh Dao
Direction : Jean-Daniel ZuckerEdi Prifti
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 23/01/2020
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Unité de modélisation mathématique et informatique des systèmes complexes (Bondy, Seine-Saint-Denis ; 2009?-....)
Jury : Président / Présidente : Karine Clément
Examinateurs / Examinatrices : Eugeni Belda, Christophe Cambier
Rapporteurs / Rapporteuses : Vincent Breton, Sy Vinh Le

Résumé

FR  |  
EN

Avec l'avènement de la technologie de séquençage de la prochaine génération, une quantité sans cesse croissante de données génomiques est produite à mesure que le coût du séquençage diminue. Cela a permis au domaine de la métagénomique de se développer rapidement. Par conséquent, la communauté bioinformatique est confrontée à des goulots d'étranglement informatiques sans précédent pour traiter les énormes ensembles de données métagénomiques. Les pipelines traditionnels de métagénomique se composent de plusieurs étapes, utilisant différentes plates-formes de calcul distribuées et parallèles pour améliorer leurs performances. Cependant, l'évolutivité de ces outils n'est pas efficace. Ils affichent de lourds frais généraux d'exécution lors du prétraitement de grandes quantités de données et ne sont pas en mesure de passer automatiquement à l'échelle supérieure pour collecter davantage de ressources informatiques. De plus, l'absence de modularité intégrée rend également leur maintenance et leur évolutivité difficiles. Ici, nous avons conçu QMSpy, une nouvelle plate-forme tout-en-un à la fois évolutive et modulaire. Dès le début, les lectures brutes de séquençage sont stockées sur stockage distribué et transformées en objets distribués, qui sont prétraités (rognés, nettoyés, filtrés, etc.), mis en correspondance avec le catalogue du génome de référence et comptés pour générer des tables d'abondance. QMSpy a été construit sur un cluster de calcul haute performance, utilisant le framework PySpark - un logiciel adaptatif qui supporte Python on Spark et étend le modèle Hadoop MapReduce. QMSpy a été testé avec des ensembles de données simulées et réelles. Dans ce pipeline, nous avons intégré des outils bioinformatiques bien connus tels que Bowtie2, Trimmomatic, Bwa, HiSat, Minimap, etc. pour traiter le séquençage des données. Notre approche prend en charge la création de workflows personnalisables en utilisant une enveloppe d'outils pour distribuer des logiciels externes dans des modules exécutables à déployer sur le cluster Spark et à exécuter en parallèle. De plus, QMSpy peut être déployé sur presque toutes les plates-formes de services informatiques à haute performance populaires telles que Google Cloud, Amazon Web Services, Microsoft Azure ou Docker et s'intégrer de manière flexible dans l'environnement d'entreprise et organisationnel tel que Hortonwork Data Platform, Salesforce, Teradata etc. En comparant QMSpy avec des ensembles de données réelles et simulées, nous avons identifié certains des facteurs les plus importants qui influencent l'exactitude du processus de quantification. Enfin, QMSpy avec ses caractéristiques telles que l'évolutivité et la modularité permettent aux bioinformaticiens de proposer de nouveaux algorithmes qui améliorent la quantification génétique, taxonomique et fonctionnelle des écosystèmes microbiens. Et nous croyons que cette ressource sera d'une grande valeur pour le domaine de la gestion de la quantitative metagenomics.