Thèse en cours

Développement d'un outil de Génétique d'Association utilisant un Pangénome Graph

FR  |  
EN
Auteur / Autrice : Camille Carrette
Direction : François Sabot
Type : Projet de thèse
Discipline(s) : EERGP-Biologie et Amélioration des plantes
Date : Inscription en doctorat le 01/07/2024
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : École Doctorale GAIA Biodiversité, agriculture, alimentation, environnement, terre, eau (Montpellier ; 2015-...)
Partenaire(s) de recherche : Laboratoire : DIADE - Diversité, Adaptation et DEveloppement des plantes
Equipe de recherche : Anthropisation de DYNAmique de la DIVersité Génétiques des Plantes

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Face au changement climatique et à la croissance de la population mondiale, l'agriculture doit relever des défis majeurs : augmentation des besoins alimentaires de qualité, raréfaction des terres arables, réduction des ressources en eau, etc. Imaginer, proposer et mettre en œuvre les solutions de demain est devenu crucial. Pour un problème aussi complexe, les stratégies possibles sont nombreuses et variées, et interviennent bien en amont du champ jusqu'aux aspects post- récolte et même de commercialisation (Foley et al., 2011). La compréhension des processus biologiques des plantes et la diversité génétique font partie de ces éléments clés, pour favoriser le développement de nouvelles lignées adaptées à ces défis. Ainsi, la recherche de caractères agronomiques favorables passe par l'identification du ou des gènes qui les contrôlent et de la diversité génétique au sein de ces gènes. Avec l'émergence des séquenceurs à haut débit et la baisse du coût du séquençage (Richter et Sexton, 2009, Stephens et al., 2015), il est désormais possible de séquencer plusieurs lignées ou individus d'une même espèce en quelques semaines. Cet afflux massif de séquences génomiques pose la question du stockage, de l'analyse et de la visualisation de ces informations. Ces données et de nombreuses études associées ont montré qu'une seule séquence génomique de référence n'est pas suffisante pour explorer la diversité génétique d'une espèce (Tettelin et al., 2005, Morgante et al., 2007, Schatz et al., 2014, Golicz et al., 2016, Monat et Sabot, 2020), et n'identifie pas tous les gènes présents dans une espèce. Par la suite, le concept de pangénomique, c'est-à- dire l'ensemble des séquences présentes dans une espèce ou un groupe, est devenu populaire pour étudier la composition du génome d'une collection d'individus. L'analyse pangénomique ouvre ainsi de nouvelles voies pour étudier et comparer plusieurs génomes d'individus étroitement liés en vue de l'amélioration variétale (Tranchant-Dubreuil et al., 2019). Ces analyses, combinées aux technologies de séquençage de deuxième (ex : Illumina) et troisième génération (ex : Oxford Nanopore Technologies ONT) offrent des possibilités sans précédent pour la découverte de nouveaux gènes, l'exploration complète de la diversité génétique des espèces de grandes cultures, par exemple, et des progrès dans notre compréhension des forces de l'évolution qui façonnent l'organisation et la dynamique des génomes, comme l'impact sur la domestication. La diversité phénotypique des organismes vivants dépend fortement de cette diversité génétique, largement étudiée du point de vue des allèles, en utilisant les études d'association à l'échelle du génome (GWAS pour Genome-Wide Association Studies) pour relier les données génomiques (principalement les génotypes provenant des marqueurs) et les informations sur les phénotypes. En utilisant des méthodes statistiques, les scientifiques ont pu définir des pics sur l'emplacement physique du génome devant contenir des gènes ou une région génomique qui expliquerait le trait d'intérêt. C'est ce qui a guidé ces dernières années, en pensant à la sélection assistée par marqueurs (SAM), la plupart des programmes de recherche sur l'amélioration des plantes cultivées. Cependant, les analyses GWAS sont basées sur un génome de référence unique, et les gènes absents de ce génome, mais responsables du phénotype étudié, ne seront pas facilement, voire pas du tout identifiés. Or, ces gènes et groupes de gènes d'intérêt absents de la référence sont contenu dans le pangénome. Ce concept de pangénome induit un changement de paradigme par rapport aux outils GWAS actuels, basés sur le concept de coordonnées sur une référence linéaire unique. Il est donc nécessaire de développer de nouvelles méthodes permettant aux scientifiques d'exploiter les données issues des analyses du pangénome pour répondre aux défis agronomiques, environnementaux et écologiques de demain.