Méthodes d'analyse comparée des pangénomes procaryotes : explorer la diversité génomique inter-espèces pour une meilleure compréhension du métabolisme
Auteur / Autrice : | Jérôme Arnoux |
Direction : | David Vallenet, Alexandra Calteau |
Type : | Projet de thèse |
Discipline(s) : | Sciences de la vie et de la santé |
Date : | Inscription en doctorat le 01/10/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Structure et Dynamique des Systèmes Vivants |
Partenaire(s) de recherche : | Laboratoire : Génomique métabolique - DRF/JACOB/Génoscope |
Référent : Université d'Évry Val d'Essonne |
Mots clés
Résumé
Ces dernières années ont vu l'explosion des projets de séquençage conduisant à un déluge de plusieurs centaines de milliers de génomes disponibles dans les banques publiques. Les approches de génomique comparée en microbiologie utilisent maintenant des milliers de génomes pour analyser la diversité d'une espèce. En effet, de nombreuses études se concentrent sur le contenu global en gènes d'une espèce (le pangénome) pour comprendre son évolution en termes de gènes communs et accessoires au regard de données épidémiologiques ou environnementales [1]. Néanmoins, le traitement de cette masse de données impose un changement de paradigme dans la représentation des connaissances et dans les algorithmes utilisés [2]. Dans cette optique, notre laboratoire travaille depuis plusieurs années sur une structuration des données génomiques sous la forme d'un graphe de pangénome, celle-ci permettant de compresser l'information de milliers de génomes tout en conservant l'organisation chromosomique des gènes. Nous avons ainsi développé des méthodes pour la reconstruction et l'analyse de pangénomes (méthode PPanGGOLiN) [3] et l'identification des régions de plasticité génomique (RPG; méthode panRGP) [4]. Le présent sujet de thèse a pour objectif de réaliser de nouveaux développements méthodologiques pour l'étude comparée des pangénomes. Il s'agira de développer de nouvelles méthodes bioinformatiques pour des comparaisons inter-pangénomes qui s'appuieront notamment sur les développements réalisés pour l'identification et la caractérisation des RPG en sous-modules fonctionnels (méthode panModule). Les RPG regroupent à la fois des régions qui sont échangées entre les souches par transfert horizontal de gènes (comme par exemple les îlots génomiques) et des régions perdues différentiellement dans différentes lignées. Elles sont d'une importance primordiale pour comprendre le potentiel adaptatif des bactéries. L'exploration de ces modules fonctionnels au sein de différentes espèces permettra de mieux comprendre la dynamique évolutive à l'origine de la diversité métabolique des microorganismes. Les algorithmes et outils développés au cours de ce projet seront mis en application afin d'étudier différents groupes bactériens d'intérêt médical, agronomique ou biotechnologique tels que les actinobactéries, les firmicutes ou les entérobactéries pour lesquelles de grandes quantités de données sont disponibles. Ces méthodes pourront être également appliquées à l'échelle d'un écosystème afin de comprendre la dynamique des génomes et les interactions entre différentes espèces vivant dans un même environnement. Une attention particulière sera donnée à l'analyse fonctionnelle des îlots génomiques au regard du métabolisme des organismes en termes de production de métabolites secondaires ou de voies cataboliques. Ce travail bénéficiera des développements et des outils intégrés au sein de la plateforme MicroScope (mage.genoscope.cns.fr/microscope) [5] ainsi que de l'expertise dans notre unité de recherche sur le métabolisme microbien. Les outils développés dans le cadre de la thèse seront valorisés au sein la plateforme MicroScope et permettront également de répondre aux besoins d'analyses des partenaires académiques et industriels. Une des originalités de ce travail de thèse réside dans l'approche pangénomique pour la comparaison de génomes qui permet de répondre à un des challenges de la bioanalyse à l'ère du big data en biologie. 1. Golicz AA, Bayer PE, Bhalla PL, Batley J, Edwards D. Pangenomics Comes of Age: From Bacteria to Plant and Animal Applications. Trends Genet. 2020;36: 132145. 2. Computational Pan-Genomics Consortium. Computational pan-genomics: status, promises and challenges. Brief Bioinform. 2016. doi:10.1093/bib/bbw089 3. Gautreau G, Bazin A, Gachet M, Planel R, Burlot L, Dubois M, et al. PPanGGOLiN: Depicting microbial diversity via a partitioned pangenome graph. PLoS Comput Biol. 2020;16: e1007732. 4. Bazin A, Gautreau G, Médigue C, Vallenet D, Calteau A. panRGP: a pangenome-based method to predict genomic islands and explore their diversity. Bioinformatics. 2020;36: i651i658 doi:10.1093/bioinformatics/btaa792 5. Vallenet D, Calteau A, Dubois M, Amours P, Bazin A, Beuvin M, et al. MicroScope: an integrated platform for the annotation and exploration of microbial gene functions through genomic, pangenomic and metabolic comparative analysis. Nucleic Acids Res. 2020;48: D579D589.