Combining machine learning and reference-free transcriptome analysis for the identification of prostate cancer signatures

par Thi Ngoc Ha Nguyen

Thèse de doctorat en Sciences de la vie et de la santé

Sous la direction de Daniel Gautheret et de Yann Ponty.

Le président du jury était Marie-Hélène Mucchielli-Giorgi.

Le jury était composé de William Ritchie, Duc-Hau Le, Laura Cantini.

Les rapporteurs étaient William Ritchie, Duc-Hau Le.

  • Titre traduit

    Combiner apprentissage automatique et analyse transcriptomique sans référence pour l'identification de signatures du cancer de la prostate


  • Résumé

    Par sa capacité à capturer la diversité complète des transcrits produits par chaque cellule, la technologie de séquençage d’ARN à haut-débit (RNA-seq) a révolutionné notre vision de l’expression des gènes. Les données RNA-seq sont de plus en plus utilisées en médecine de précision afin d'établir les profils moléculaires des tumeurs, ou pour étudier des réseaux de gènes régissant l'adaptation d'une cellule à son environnement. Cependant, l’analyse RNA-seq qui classiquement se base sur la comparaison avec des séquences géniques de référence, est incapable d'identifier une grande part des ARN aberrants produits dans les maladies par altération du génome ou des processus de maturation. Notre projet vise à exploiter un nouveau concept pour l'analyse du transcriptome fondé sur des "étiquettes", ou k-mers, représentant l'intégralité des variations de séquences observées dans un transcriptome. Nous avons appliqué ce concept à la découverte de signatures diagnostiques ou pronostiques à partir de données RNA-seq du cancer de la prostate. A cette fin, nous avons appliqué différentes méthodes de réduction de dimension et de sélection de variable utilisées dans l'analyse transcriptomique classique. En raison de la très grande dimension des matrices de k-mers, ces méthodes ont nécessité des adaptations afin de réduire de manière drastique le nombre de variables à analyser. Nous sommes parvenu à établir un protocole informatique capable de réduire efficacement une matrice de k-mers issue du séquençage de plusieurs centaines de transcriptomes. A l'aide de ce protocole, nous avons pû produire de nouvelles signatures diagnostiques et pronostiques pour le cancer de la prostate. Ces signatures "sans référence" ne nécessitent pas de connaissance a priori sur le génome ou le transcriptome humain et sont au moins aussi performantes que les signatures géniques conventionnelles. De plus ces signatures contiennent des séquences d'ARN jamais identifiées, correspondant notamment à des variants d'ARNm ou à de nouveaux longs ARN non-codants qui pourront orienter les biologistes vers de nouveaux mécanismes d'oncogénèse.


  • Résumé

    With its ability to capture the full diversity of transcripts produced by each cell, high-throughput RNA sequencing (RNA-seq) has revolutionized our view of gene expression. RNA-seq data are increasingly used in precision medicine to establish the molecular profiles of tumors, or to study gene networks governing the adaptation of a cell to its environment. However, RNA-seq analysis, which is conventionally based on comparison with reference gene sequences, is unable to identify a large fraction of abnormal RNA transcripts produced in disease tissues, through defects in the genome or in RNA processing. Our project aims to exploit a new concept for the analysis of transcriptomes based on short sequence labels, or k-mers, representing all of the sequence variations observed in a given transcriptome dataset. We applied this concept to the discovery of diagnostic or prognostic signatures from RNA-seq data of prostate cancer. To this end, we applied different dimension reduction and variable selection methods used in classical transcriptomic analysis. Due to the very large dimension of the k-mer matrices, these methods required specific adaptations in order to drastically reduce the number of variables to be analyzed. We established a computer pipeline capable of effectively reducing a k-mer matrix obtained from the sequencing of several hundred transcriptomes. Using this pipeline, we were able to produce new diagnostic and prognostic signatures for prostate cancer. These "reference-free" signatures do not require a priori knowledge of the human genome or transcriptome and are at least as effective as conventional gene signatures. In addition, these signatures contain novel RNA sequences corresponding to mRNA variants or new long non-coding RNAs. These novel RNAs involved in cancer risk may orient biologists towards new oncogenesis mechanisms.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Paris-Saclay. DiBISO. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.