Développement de méthodes bio-informatiques pour l’étude de l’épissage chez les espèces non modèles : épissage complexe et apport des technologies de séquençage de 3eme génération - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Developpement of bio-informatics tools to study alternative splicing for non model species : complex alternative splicing and contribution of third generation sequencing technologies

Développement de méthodes bio-informatiques pour l’étude de l’épissage chez les espèces non modèles : épissage complexe et apport des technologies de séquençage de 3eme génération

Résumé

Eukaryotic genes are composed of exons and introns. Introns are spliced out during the maturation of pre-mRNA to mRNA. Splice site usage may vary from one transcript to another for a same gene. Alternative splicing is a source of diversity in eucaryotic transcriptomes and one gene can sometimes lead to several proteins. We can study alternative splicing using RNAseq data. Nowadays second (2GS) and third generation sequencing (3GS) technologies coexist. 2GS produce short (from 100 to 250 pb) high quality reads whereas 3GS produce long reads (up to several kilobases) but with a lot of errors. In the first part of my PhD, I analysed Nanopore long reads datasets to understand how this technology can help us to study eucaryotic transcriptomes. Particularly, I wondered if transcripts and genes quantifications obtained with Nanopore data were reliable. We used Spike-in (artificial transcripts from which we know the real quantification) and we showed that the most precise quantifications were obtained with the RNA direct protocol. Furthermore, we observed that only a fraction of the long reads covered full length transcripts. Then, I worked on a new model for complex alternative splicing events in non-model species. KisSplice [65], the local RNAseq assembler developped in the team, always considers pairwise event even when there are more than two transcripts locally. I propose here a new scale to study alternative splicing : we consider all the splicing variations observed between two constitutive exons of a gene.
Les gènes des organismes eucaryotes sont structurés en exons et en introns. Lors de l’épissage, les introns sont retirés et les exons reliés entre eux. L’utilisation des sites d’épissage par la machinerie cellulaire peut varier d’un transcrit à l’autre pour un même gène. L’épissage alternatif permet alors à un seul gène de produire plusieurs transcrits et parfois plusieurs protéines. L’étude des données issues du séquençage des transcrits (RNAseq) nous permet d’étudier l’épissage. Actuellement deux technologies de séquençage coexistent : les technologies de seconde génération, permettant de produire des lectures courtes (100 à 250pb) avec un taux d’erreur faible et les technologies de 3ème génération permettant de produire des lectures longues (plusieurs kb) avec des taux d’erreur plus élevés. Dans un premier temps, j’ai analysé des jeux de données Nanopore (lectures longues) afin de comprendre comment ces technologies, récentes et en constante évolution, peuvent nous aider à étudier les transcriptomes eucaryotes. Plus particulièrement, je me suis demandée si les quantifications des gènes et des transcrits obtenues étaient fiables. L’utilisation de spike-in -transcrits artificiels dont on connaît la quantification- nous a permis de montrer que, parmi les différents protocoles testés, les quantifications obtenues avec le protocole RNA direct sont les plus fiables. De plus, contrairement à ce à quoi l’on s’attendait, les lectures ne couvrent pas systématiquement des transcrits complets. Ensuite, je me suis intéressée à la modélisation des évènements d’épissage alternatif complexes chez les espèces non modèles. L’assembleur local de transcriptome, KisSplice [65], développé dans l’équipe compare deux à deux les transcrits, même lorsqu’il y a plus de deux transcrits localement. Je propose ici une nouvelle échelle d’étude de l’épissage qui permet de considérer toutes les variations d’épissages observées entre deux exons constitutifs à tous les transcrits d’un gène.
Fichier principal
Vignette du fichier
TH2021SESSEGOLOCAMILLE.pdf (9.19 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03662745 , version 1 (09-05-2022)

Identifiants

  • HAL Id : tel-03662745 , version 1

Citer

Camille Sessegolo. Développement de méthodes bio-informatiques pour l’étude de l’épissage chez les espèces non modèles : épissage complexe et apport des technologies de séquençage de 3eme génération. Bio-informatique [q-bio.QM]. Université de Lyon, 2021. Français. ⟨NNT : 2021LYSE1218⟩. ⟨tel-03662745⟩
89 Consultations
65 Téléchargements

Partager

Gmail Facebook X LinkedIn More