Analyse de k-mers pour la transcriptomique du cancer à la résolution du nucléotide
Auteur / Autrice : | Haoliang Xue |
Direction : | Daniel Gautheret |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de la vie et de la santé |
Date : | Soutenance le 13/12/2021 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Institut de biologie intégrative de la cellule (Gif-Sur-Yvette, Essonne ; 2015-....) |
référent : Faculté des sciences d'Orsay | |
graduate school : Université Paris-Saclay. Graduate School Life Sciences and Health (2020-....) | |
Jury : | Président / Présidente : Fariza Tahi |
Examinateurs / Examinatrices : Tatiana Popova, Denis Puthier, Rayan Chikhi, Alain Denise | |
Rapporteurs / Rapporteuses : Tatiana Popova, Denis Puthier |
Mots clés
Résumé
Le transcriptome intègre des variations d'ARN produites par deux processus principaux : les altérations génétiques (mutations, fusions de gènes, etc.) et les modifications post-transcriptionnelles (épissages alternatifs, etc.). C'est un objet de recherche idéal pour étudier l’association génotype-phénotype. Les techniques de next-generation sequencing (NGS, séquençage de nouvelle génération) permettent une mesure du transcriptome à la résolution du nucléotide, de manière à la fois rapide et économique. Les analyses conventionnelles du transcriptome basée sur la quantification des gènes ou des transcrits n'utilisent pas la pleine précision de ces données NGS, mais héritent d’une perspective plus ancienne issue des puces à ADN (microarrays) et qui considère le gène ou le transcrit comme la caractéristique élémentaire pour l’analyse statistique ou pour l'apprentissage automatique. Dans cette thèse, nous discutons et développons une nouvelle perspective d'analyse du transcriptome, basée sur les signaux de k-mers (sous-chaînes de caractères de longueur fixe comme k, avec typiquement k = 31). Ainsi, au lieu de quantifier des gènes ou des transcrits prédéfinis, nous comptons des k-mers courts et arbitraires, et les prenons directement comme caractéristiques élémentaires. Cela permet de représenter des événements au cours de l'expression du gène à la résolution nucléotide, et d’entrer au-dessous du niveau des transcrits pour examiner les événements locaux. En outre, cette approche évite aussi que les signaux informatifs s'annulent à l’étape de la quantification de gène ou de transcrit. La thèse comporte différents aspects : (i) Le logiciel KaMRaT (chapitre 3), développé au cours de la thèse, prend en charge diverses méthodes pour réduire la dimensionnalité de k-mers, et pour améliorer leur spécificité. Il intègre : un module pour classer-sélectionner des k-mers en évaluant l’association entre les comptages des k-mers et le phénotype des échantillons; un module d'extension pour fusionner des k-mers chevauchants ; un module de filtrage tenant compte de leurs niveaux d'expression ; un module de masquage pour extraire les k-mers avec une liste de séquences donnée. Les résultats montrent que KaMRaT est un logiciel à la fois économe en ressource de calcul, flexible et facile à utiliser (ii) La comparaison entre les classifieurs utilisant k-mers ou gènes (chapitre 4) montre qu’un classifieur basé sur des caractéristiques de type k-mer fonctionne aussi bien que celui basé sur les caractéristiques de type gène, dans le problème du pronostic du cancer de la prostate, le premier offrant de plus de la possibilité de découvrir de nouveaux événements non-annotés. (iii) L’analyse de la réplicabilité des signaux k-mers informatifs dans une recherche inter-cohorte (chapitre 5) montre que les signaux k-mers sont réplicables entre jeux de données comparables mais indépendantes, et la recherche inter-cohorte de k-mers permet de trouver des signaux informatifs stables. (iv) Le logiciel Kmerator (chapitre 6) permet l'utilisation de signaux de type k-mer, donc sans référence, comme un proxy pour la mesure d’expression génique. (v) Enfin, l'application des logiciels REINDEER et Kmerator (chapitre 7) permet d’utiliser de grandes collections d’échantillons d'ARN-seq pour y rechercher des séquences d’ARN arbitraires.