Thèse en cours

Developpement d'outils bioinformatiques pour l'analyse des genomes et pangenomes chez les eucaryotes

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 27/11/2024. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Laura Gonzalez garcia
Direction : Romain GuyotJorge Duitama
Type : Projet de thèse
Discipline(s) : BIDAP-Biologie et Ecologie Evolutives
Date : Inscription en doctorat le
Soutenance le 27/11/2024
Etablissement(s) : Université de Montpellier (2022-....) en cotutelle avec Université des Andes
Ecole(s) doctorale(s) : Biodiversité, Agriculture, Alimentation, Environnement, Terre, Eau
Partenaire(s) de recherche : Laboratoire : DIADE - Diversité, Adaptation et DEveloppement des plantes
Jury : Président / Présidente : Anna-Sophie Fiston-lavier
Examinateurs / Examinatrices : Romain Guyot, Jorge Duitama, Diego Riano pachon, Marie-Anne Van sluys, Kelly Garces-pernett, Liliana Lopez-kleine, Marie Mirouze
Rapporteur / Rapporteuse : Marie-Anne Van sluys, Marie Mirouze

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les progrès en technologies de séquençage ont permis l'assemblage de génomes de haute qualité à grande échelle, facilitant les études pangénomiques. Les pangénomes représentent l'ensemble de la diversité génétique d'une espèce et offrent des aperçus sur la diversité génomique, l'évolution et la variation fonctionnelle. Cependant, la croissance des données génomiques a créé de nouveaux défis en bioinformatique, particulièrement dans les étapes d'assemblage, d'annotation et d'analyse comparative des génomes. Cette thèse aborde trois goulots d'étranglement clés dans la reconstruction des pangénomes à travers le développement d'algorithmes et d'outils, tout en explorant leurs applications dans deux études de cas contrastées d'importance clinique et agricole en Colombie : les parasites Leishmania et les caféiers. La première partie se concentre sur le développement de logiciels pour améliorer les analyses pangénomiques. Un nouvel assembleur de génome basé sur l'algorithme de overlap layout consensus a été développé. Le logiciel résultant a démontré une vitesse et une contiguïté améliorées, lorsqu'il a été testé sur des lectures PacBio HiFi et Oxford Nanopore Technologies. Une méthode sans alignement a été implémentée pour réduire le temps de calcul dans l'annotation des éléments transposables, ce qui est important dans l'analyse des génomes répétitifs. Cette approche a réduit le temps d'annotation avec une haute précision et sensibilité. De plus, un nouvel algorithme pour l'identification des orthologues et la reconstruction des pangénomes a été créé. Il utilise des comparaisons de protéines basées sur les k-mers au lieu des alignements par paires. Cette méthode a montré une vitesse et une précision améliorées, en particulier pour les taxons apparentés, et a facilité la génération de matrices de présence/absence pour les familles de gènes et les analyses de synténie. La seconde partie applique ces outils à une étude de cas clinique et une étude de cas agronomique pertinentes en Colombie. Pour Leishmania, une base de données de variabilité génomique a été construite, incluant 65 isolats cliniques colombiens, révélant des aperçus sur la délimitation des espèces et la diversité génétique. Dix isolats ont été séquencés en utilisant le séquençage à lectures longues et assemblés à un niveau proche du chromosome. Cela a permis une analyse pangénomique basée sur les gènes qui a mis en évidence la différenciation des espèces basée sur les familles de gènes multi-copies. Dans l'étude Coffea, 98 accessions d'espèces sauvages et cultivées ont été séquencées, en utilisant également des données publiques, pour construire une base de données de variation et reconstruire la phylogénie du genre. Le séquençage à lectures longues de neuf génomes de Coffea a permis des analyses génomiques comparatives, confirmant la conservation de la synténie à travers les Rubiaceae. De plus, cette étude apporte de nouvelles perspectives sur la compréhension de la voie de biosynthèse de la caféine. Ce travail démontre le potentiel des données génomiques à grande échelle avec des approches bioinformatiques efficaces pour résoudre des questions biologiques. Les outils développés réduisent le temps de calcul et les ressources nécessaires pour les analyses pangénomiques, rendant ces études accessibles à un plus large éventail d'espèces. Les études de cas soulignent les applications de ces méthodes dans la compréhension de la diversité des pathogènes et de l'évolution des plantes. Ces applications ont des implications pour le diagnostic et la gestion des maladies, ainsi que pour les stratégies de sélection variétale. Les orientations futures comprennent la conciliation de la variation structurelle génomique avec l'annotation fonctionnelle, ainsi que sur la représentation pangénomique basée sur les graphes. Les méthodologies et les aperçus présentés ici fournissent une base pour faire progresser la recherche pangénomique à travers les systèmes cliniques et agricoles.