Biocomputational tools for transcriptome-wide analyses of RNA-binding proteins - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Biocomputational tools for transcriptome-wide analyses of RNA-binding proteins

Outils de biologie computationnelle pour l'étude des protéines de liaison à l'ARN à l'échelle du transcriptome

Résumé

Post-transcriptional Gene Expression Regulation is a complex network that involves RNA-binding proteins and non-coding RNAs to orchestrate the complex life of mRNAs. In metazoans, the Exon Junction Complex (EJC) is a multi-protein complex deposited onto mRNAs exon junctions during splicing. The EJC interacts with numerous factors and is important for coupling pre-mRNA splicing with mRNA nuclear export, localization, translation, and decay. Despite its central role in gene expression and in organism development, the comprehensive map of EJC binding sites is lacking. Crosslinking and immunoprecipitation coupled with high-throughput sequencing (CLIP-seq) aims to identify transcriptome-wide RNAprotein interactions in vivo. Yet, current trends in CLIP-seq data analysis gravitate towards painting a global landscape rather than characterizing individual binding sites. However, we observed that current peak callers applied to EJC CLIP data yield results with limited reproducibility and sensibility. During my PhD, we developed a dedicated strategy to detect EJC signal enrichment at the exon level. By aggregating data from several replicates, we built a list of robust genes with reproducible EJC loading rate. Within robust genes, we assigned a robustness score to each exon according to frequency of detection across replicates. We found that the exon robustness score was correlated to the thymidine (T) content of EJC binding sites. Assuming this was due to cross-linking chemistry, we corrected the score for the T content and found exons with either high or low detection rates. The last suggests that EJC loading is not homogeneous along a transcript, but rather differential. Thus, we established an unprecedented binding site map of the EJC in living cells validated by statistical tools. Crossing this map with other information showed that EJC loading is independent of transcript expression levels or known gene functional annotations. Although the scope of this work does not include possible explanations for this differential loading, it presents a first reproducible and specific data analysis pipeline to detect EJC-loaded exons. Altogether, our contribution is twofold. First, we proposed a robust way to detect EJC signal enrichment at the exon level and demonstrated quantitatively that our approach is more reproducible and more sensitive compared to conventional tools. Second, we proved that the EJC can be present on some, and absent on other exons of the same transcript suggesting that EJC loading is a regulated process following a code that remains to be discovered.
La régulation post-transcriptionnelle de l’expression des gènes est un réseau d’interactions impliquant de nombreuses protéines de liaison à l’ARN et des ARN non-codants afin d’orchestrer la vie complexe des ARN messagers (ARNm). Chez les métazoaires, le complexe EJC (Exon Junction Complex) est un complexe multiprotéique déposé sur la jonction exonique des ARNm pendant l’épissage. L’EJC interagit avec de nombreux facteurs et est important pour le couplage fonctionnel entre l’épissage et l’export du noyau, la localisation, la traduction et la dégradation des ARNm. Malgré son rôle central dans la régulation génique et le développement de l’organisme, aucune carte exhaustive des sites de liaison de l’EJC n’a encore été établie. La méthode de CLIP (Cross-Linking and Immunoprécipitation) associée au séquençage à haut-débit (CLIP-seq) permet d’identifier les sites de liaison protéine à l’ARN in vivo. Cependant, les analyses des données de CLIP-seq ont permettent aujourd’hui d’obtenir une vue globale plutôt qu’une caract érisation individuelle des sites de liaison d’une protéine. En effet, les détecteurs de pics conventionnels appliqués aux données de CLIP de l’EJC produisent des résultats dont la reproductibilité et la sensibilité sont limitées. Durant ma thèse, nous avons développé une stratégie dédiée à la détection du signal de l’EJC au niveau exonique. En agrégeant les informations de différents réplicas, nous avons généré une liste de gènes reproductibles. Au sein de ces gènes, nous avons trouvé une forte corr élation entre la robustesse de détection des exons et le contenu en thymidine (T) au niveau des sites de liaison. Posant l’hypothèse que ceci est un effet du photopontage, nous avons corrigé le score de robustesse par le contenu en T et avons ainsi clairement montré que l’EJC est déposé sur certains exons et pas sur d’autres. Par conséquent, le complexe EJC est déposé de manière diff érentielle le long d’un mˆeme transcrit. Nous avons ainsiétabli une carte des sites de liaisons de l’EJC sans précédent. L’intégration de données supplémentaires a montré que le dépôt de l’EJC est indépendant de l’abondance du transcrit et n’est pas expliqué par des annotations fonctionnelles connues du gène. Bien que ce travail n’a pas permis à ce stade d’identifier les raisons de ce dépôt différentiel, nous présentons une première méthode d’analyse spécifique et reproductible des exons liés à un EJC par CLIP-seq. Les deux contributions principales de ce travail sont donc les suivantes. Premièrement, nous proposons une méthode robuste pour détecter l’enrichissement du signal de l’EJC à l’échelle de l’exon, en démontrant quantitativement que celleci est plus reproductible et plus sensible que les solutions offertes par les outils actuels. Deuxièmement, nous prouvons que, au sein d’un mˆeme transcrit, l’EJC peut être présent sur des exons, et absent d’autres, suggérant que le dépôt de l’EJC est un processus régulé suivant un code qui reste à découvrir.
Fichier principal
Vignette du fichier
Paternina_Osorio_2020_These.pdf (16.54 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03609656 , version 1 (15-03-2022)

Identifiants

  • HAL Id : tel-03609656 , version 1

Citer

J. Antonio Paternina Osorio. Biocomputational tools for transcriptome-wide analyses of RNA-binding proteins. Quantitative Methods [q-bio.QM]. Université Paris sciences et lettres, 2020. English. ⟨NNT : 2020UPSLE058⟩. ⟨tel-03609656⟩
74 Consultations
26 Téléchargements

Partager

Gmail Facebook X LinkedIn More