Thèse soutenue

Méthodes d'étude de la rétention d'intron à partir de données de séquençage de seconde et de troisième générations

FR  |  
EN
Auteur / Autrice : Lucile Broseus
Direction : William Ritchie
Type : Thèse de doctorat
Discipline(s) : Biologie Santé
Date : Soutenance le 13/11/2020
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : Sciences Chimiques et Biologiques pour la Santé
Partenaire(s) de recherche : Laboratoire : Institut de génétique humaine (Montpellier)
Jury : Examinateurs / Examinatrices : William Ritchie, Andrea Rau, Hélène Touzet, Franck Picard
Rapporteurs / Rapporteuses : Andrea Rau, Hélène Touzet

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

On reconnaît maintenant aux transcrits des implications multiples dans le fonctionnement des cellules eucaryotes. En plus de leur rôle originel de messagers assurant la liaison entre l'ADN et la synthèse protéique, l’usage de transcrits alternatifs apparaît comme un mode de contrôle post-transcriptionnel de l'expression génique. Exemplairement, plusieurs mécanismes distincts de régulation impliquant la production de transcrits matures retenant des introns (IRTs) ont été récemment décrits. Ces observations sont largement tributaires du développement de la seconde génération de séquençage haut-débit de l'ARN (RNA-seq). Cependant, ces données ne permettent pas d’identifier la structure complète des IRTs , dont le répertoire est encore très parcellaire. L’émergence d’une troisième génération de séquençage, à même de lire les transcrits dans leur intégralité, pourrait permettre d’y remédier. Bien que chaque technologie présente des inconvénients propres qui n'autorisent qu'une vision partielle et partiale du transcriptome, elles se complètent sur plusieurs points. Leur association, au moyen de méthodes dites hybrides, offre donc des perspectives intéressantes pour aborder l'étude des isoformes. L'objet de cette thèse est d'examiner ce que ces deux types de données peuvent, seuls ou combinés, apporter plus spécifiquement à l'étude des événements de rétention d'intron (IR). Un nombre croissant de travaux exploitent la profondeur et la largeur de couverture des données de seconde génération pour déceler et quantifier l'IR. Toutefois, il existe encore peu de méthodes informatiques dédiées à leur analyse et l’on fait souvent appel à des méthodes conçues pour d'autres usages comme l'étude de l'expression des gènes ou des exons. En tous les cas, leur capacité à apprécier correctement l'IR ne sont pas garanties. C'est la raison pour laquelle nous mettons en place un plan d'évaluation des méthodes de mesure des niveaux d’IR. Cette analyse révèle un certain nombre de biais, susceptibles de nuire à l'interprétation des résultats et nous amène à proposer une nouvelle méthode d’estimation. Au-delà de la vision centrée sur les variants, les données de longs reads Oxford Nanopore ont le potentiel de révéler la structure complète des IRTs, et ainsi, d’inférer un certain nombre de leurs caractéristiques. Cependant, leur taux d’erreur élevé et la troncation des séquences sont des obstacles incontournables. A large échelle, le traitement informatique de ces données nécessite l’introduction d’heuristiques, qui privilégient certaines formes de transcrits et, en général, occultent les formes rares ou inattendues. Il en résulte une perte importante d’information et de qualité d’interprétation. Pour la réduire, nous développons une méthode hybride de correction des séquences et proposons des stratégies ciblées pour reconstituer et caractériser les IRTs.