Méthodes d'étude de la rétention d'intron à partir de données de séquençage de seconde et de troisième générations

par Lucile Broseus

Thèse de doctorat en Biologie Santé

Sous la direction de William Ritchie.

Soutenue le 13-11-2020

à Montpellier , dans le cadre de Sciences Chimiques et Biologiques pour la Santé , en partenariat avec Institut de génétique humaine (Montpellier) (laboratoire) .

Le jury était composé de William Ritchie, Andrea Rau, Hélène Touzet, Franck Picard.

Les rapporteurs étaient Andrea Rau, Hélène Touzet.


  • Résumé

    On reconnaît maintenant aux transcrits des implications multiples dans le fonctionnement des cellules eucaryotes. En plus de leur rôle originel de messagers assurant la liaison entre l'ADN et la synthèse protéique, l’usage de transcrits alternatifs apparaît comme un mode de contrôle post-transcriptionnel de l'expression génique. Exemplairement, plusieurs mécanismes distincts de régulation impliquant la production de transcrits matures retenant des introns (IRTs) ont été récemment décrits. Ces observations sont largement tributaires du développement de la seconde génération de séquençage haut-débit de l'ARN (RNA-seq). Cependant, ces données ne permettent pas d’identifier la structure complète des IRTs , dont le répertoire est encore très parcellaire. L’émergence d’une troisième génération de séquençage, à même de lire les transcrits dans leur intégralité, pourrait permettre d’y remédier. Bien que chaque technologie présente des inconvénients propres qui n'autorisent qu'une vision partielle et partiale du transcriptome, elles se complètent sur plusieurs points. Leur association, au moyen de méthodes dites hybrides, offre donc des perspectives intéressantes pour aborder l'étude des isoformes. L'objet de cette thèse est d'examiner ce que ces deux types de données peuvent, seuls ou combinés, apporter plus spécifiquement à l'étude des événements de rétention d'intron (IR). Un nombre croissant de travaux exploitent la profondeur et la largeur de couverture des données de seconde génération pour déceler et quantifier l'IR. Toutefois, il existe encore peu de méthodes informatiques dédiées à leur analyse et l’on fait souvent appel à des méthodes conçues pour d'autres usages comme l'étude de l'expression des gènes ou des exons. En tous les cas, leur capacité à apprécier correctement l'IR ne sont pas garanties. C'est la raison pour laquelle nous mettons en place un plan d'évaluation des méthodes de mesure des niveaux d’IR. Cette analyse révèle un certain nombre de biais, susceptibles de nuire à l'interprétation des résultats et nous amène à proposer une nouvelle méthode d’estimation. Au-delà de la vision centrée sur les variants, les données de longs reads Oxford Nanopore ont le potentiel de révéler la structure complète des IRTs, et ainsi, d’inférer un certain nombre de leurs caractéristiques. Cependant, leur taux d’erreur élevé et la troncation des séquences sont des obstacles incontournables. A large échelle, le traitement informatique de ces données nécessite l’introduction d’heuristiques, qui privilégient certaines formes de transcrits et, en général, occultent les formes rares ou inattendues. Il en résulte une perte importante d’information et de qualité d’interprétation. Pour la réduire, nous développons une méthode hybride de correction des séquences et proposons des stratégies ciblées pour reconstituer et caractériser les IRTs.

  • Titre traduit

    Computational methods for studying intron retention events using second and third generation sequencing data


  • Résumé

    In eucaryotic cells, the roles of RNA transcripts are known to be varied. Besides their role as messengers, transferring information from DNA to protein synthesis, the usage of alternative transcripts appears as a means to control gene expression in a post-transcriptional manner. Exemplary, the production of mature transcripts retaining introns (IRTs) was recently shown to take part in several distinct regulatory mechanisms. These observations benefited greatly from the development of the second generation of RNA-sequencing (RNA-seq). However, these data do not allow to identify the entire structure of IRTs, whose catalog is still fragmented. The emerging third generation of RNA-seq, apt to read RNA sequences in their full extent, could help achieve this goal. Despite their respective drawbacks and biases, both technologies are, to some extent, complementary. It is therefore appealing to try and combine them through so-called hybrid methods, so as to perform analyses at the isoform level. In the present thesis, we aim to investigate the potential of these two types of data, alone or in combination, in order to study intron retention (IR) events, more specifically. A growing number of studies harness the high coverage depths provided by second generation data to detect and quantify IR. However, there exist few dedicated computational methods, and many studies rely on methods designed for other purposes, such as gene or exon expression analysis. In any case, their ability to accurately measure IR has not been certified. For this reason, we set up a benchmark of the various IR quantification methods. Our study reveals several biases, prone to prejudice the interpretation of results and prompted us to suggest a novel method to estimate IR levels. Beyond event-centered analyses, Oxford Nanopore long read data have the capability to reveal the full-length structure of IRTs, and thereby to allow to infer some of their features. However, their high error rate and truncation events constitute inescapable impediments. Transcriptome-wide, the computational treatment of these data necessitates heuristics which will favor specific transcript forms, and, generally, overlook rare or unexpected ones. This results in a considerable loss of information and precludes meaningful interpretations. To address these issues, we develop a hybrid correction method and suggest specific strategies to recover and characterize IRTs.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Universités de Montpellier. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.