Exploration du réservoir de protéines de fonctions inconnues de l'océan
Auteur / Autrice : | Thibault Antoine |
Direction : | Eric Pelletier |
Type : | Projet de thèse |
Discipline(s) : | Écologie |
Date : | Inscription en doctorat le 01/01/2023 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Génomique métabolique - DRF/JACOB/Génoscope |
Référent : Université d'Évry-Val-d'Essonne (1991-....) |
Mots clés
Résumé
La composante microbienne des océans représente ~60% de la biomasse de l'océan mondial et > 80% de la biomasse de la colonne d'eau. Ces organismes déploient de nombreuses interactions et des stratégies de survie différentes de celles des organismes macroscopiques (Worden et al., 2015). La fraction planctonique microbienne est la base de la chaîne alimentaire dont dépend essentiellement toute la vie océanique. Elle est également essentielle pour le lien entre le climat et les écosystèmes marins, via notamment la pompe à carbone, qui est sans doute le mécanisme biologique le plus important de la planète, par lequel le carbone fixé par la matière organique est séquestré loin du cycle du carbone, sur des échelles de temps géologiques. Jusqu'à peu, notre compréhension du microbiome océanique était essentiellement basée sur l'ensemble d'un groupe limité d'organismes de référence (Sibbald and Archibald, 2017). Mais au cours des cinq dernières années, l'accumulation de données de génomique environnementale (métagénomique et métatranscriptomique) a augmenté l'espace connus de gènes, et notamment les gènes codant pour des protéines nouvelles, ou dont la fonction est inconnue. Ainsi, le projet Tara Oceans a contribué largement à explorer le microbiome océanique à l'échelle du globe, en associant imagerie à grande échelle des organismes planctoniques, le séquençage à haut débit du contenu génomique et génétique, et la collecte de paramètres physico-chimiques décrivant le masses d'eau échantillonnées. Tara Oceans a fourni la plus grande collection de gènes marins jamais constituée, avec plus de 200 millions de gènes d'organismes viraux (Gregory et al., 2019), bactériens & archéens (Salazar et al., 2019) et eucaryotes (Pelletier et al., 2018). Cependant, 40 à 60 % des gènes récupérés restent fonctionnellement non caractérisés, du fait de l'absence de similarité significative avec des séquences déjà décrites, ce qui limite d'autant la compréhension fonctionnelle des organismes qui les portent et des communautés microbiennes qu'ils composent. Parallèlement à ce mouvement, les capacités nouvelles à reconstituer des génomes ou des transcriptomes à partir de collections de données de génomique environnementale. Ainsi, plus de 2000 génomes (MAGs Metagenome Assembled Genomes) (Delmont et al., 2020) ou transcriptomes eucaryotes (MGT Metagenome-based Transcriptomes) (Vorobev et al., 2020) et 1900 génomes bactériens et archéens (MAGs) (Delmont et al., 2018) ont été récemment reconstruits à partir des données Tara Oceans. Ces nouvelles données permettent aujourd'hui de donner à ces gènes de fonction encore inconnue des contextes biologiquement significatifs, et ainsi d'envisager de nouvelles pistes pour explorer leurs fonctions Le fait de pouvoir structurer ce vaste espace de séquences, et notamment celles de fonctions inconnues, en intégrant les génomes ou transcriptomes de référence déjà disponible, et de le combiner avec de riches données contextuelles, ouvre un large éventail de possibilités sur la manière dont nous pouvons interroger les génomes et les métagénomes (Faure et al., 2019; Vanni et al., 2020; Faure, Ayata and Bittner, 2021). Cette thèse se propose de d'explorer cet espace des séquences génomiques inconnues pour développer des approches permettant d'élargir nos connaissances sur le microbiome océanique. Nous avons trois objectifs principaux : (1) développer des méthodes pour améliorer l'identification et l'analyse des gènes de fonction inconnue à partir des génomes et des métagénomes, sur la base de réseaux de similarité de séquences ; (2) utiliser les génomes et transcriptomes de haute qualité reconstruits à partir des métagénomes et des métatranscriptomes pour fournir un contexte aux gènes de fonction inconnue ; (3) intégrer les profils d'expression des gènes, la distribution des organismes dans les différentes stations de prélèvement et les paramètres environnementaux associés pour explorer les potentielles fonctions de ces gènes.