Thèse soutenue

Méthodes d’inférence des variations structurelles à l’échelle du génome dans les données séquençage basse profondeur à l’aide du graphe de pangénome

FR  |  
EN
Auteur / Autrice : Thi Minh Nguyet Dang
Direction : François Sabot
Type : Thèse de doctorat
Discipline(s) : Génétique et génomique
Date : Soutenance le 20/09/2022
Etablissement(s) : Université de Montpellier (2022-....)
Ecole(s) doctorale(s) : GAIA (Montpellier ; École Doctorale ; 2015-...)
Partenaire(s) de recherche : Laboratoire : Diversité et Adaptation et Développement des plantes (DIADE), Montpellier
Jury : Président / Présidente : Jean-Christophe Glaszmann
Examinateurs / Examinatrices : François Sabot, Jean-Christophe Glaszmann, Rayan Chikhi, Matthias Zytnicki, Malika Ainouche, Clémentine Vitte
Rapporteurs / Rapporteuses : Rayan Chikhi, Matthias Zytnicki

Résumé

FR  |  
EN

Pour comparer plusieurs génomes, un génome de référence linéaire a souvent été utilisé comme système de coordonnées pour décrire les gènes, les variations et autres annotations fonctionnelles entre individus. Cependant, il a été démontré que cette référence unique n'était pas suffisante pour appréhender toutes les variations génomiques existantes telles que les variations du nombre de copies (CNV), les variations de présence/absence (PAV) ou les variations structurelles de manière (SV) plus générale. Pour surmonter cette limitation, le concept de pangénome, composé d'un génome central et d'un génome accessoire, a été appliqué pour étudier un groupe de génomes. Le modèle de données basé sur le graphe généré par l'incorporation incrémentale des informations d'alignement de génomes est l'une des nouvelles approches pour représenter les informations du pangénome. Un graphe de séquences contient des nœuds qui sont étiquetés avec des séquences de nucléotides, les liens entre les nœuds servant d'arêtes. La chaîne de nœuds successifs dans un graphe de génome est considérée comme un chemin. En général, le graphe de séquence est bidirectionnel. Le graphe génomique est approprié pour représenter un pangénome puisque chaque chemin peut démontrer un individu dans la population étudiée. Pour étudier la variation structurelle d'un pangénome, plusieurs méthodes ont été développées dont : GraphTyper, BayesTyper, ou vg toolkit. Ces outils se concentrent principalement sur les problèmes de génotypage. En conséquence, ces outils fonctionnent en fonction d'un graphe construit à partir de variants connus puis du génotypage basé sur le réalignement des lectures cartographiées, la distribution des k-mer, la couverture des lectures et le graphe d'alignement du génome entier. Cependant, il existe encore certaines limitations dans la présentation des variants structurels imbriqués ou l'identification des orthologues. Dans cette présentation, j'aimerais discuter brièvement des différentes approches pour générer un graphe du génome et comment nous pouvons l'utiliser dans la prédiction des variations structurelles. Je présenterai également une approche méthodologique permettant de traiter les données du graphe du génome au format gfa provenant de minigraph. Dans le cadre de mon doctorat, je souhaite développer une méthode de prédiction des variations structurelles pour les données de séquençage à faible couverture basée sur le graphe du génome. Tout d'abord, un set de séquencées de haute qualité peut être utilisé pour générer un graphe génomique. Pour l'instant, le nombre d'outils utilisables pour le graphe génomique est limité. Par conséquent, j'extrais le chemin linéaire le plus représentatif du graphe pour tirer parti des outils conventionnels disponibles et bien développés. Ce chemin linéaire sera utilisé comme référence lorsque j'alignerai les lectures des individus à faible couverture pour identifier les régions cartographiées et non cartographiées. Les régions non cartographiées sur les individus à faible couverture seront classées en deux cas. Si une bulle du graphe est couverte par au moins une lecture, cette bulle sera incorporée au chemin de l'individu. Dans les autres cas, les individus à faible couverture suivront le profil de l'individu à forte couverture le plus similaire.