Thèse soutenue

Combiner apprentissage automatique et analyse transcriptomique sans référence pour l'identification de signatures du cancer de la prostate

FR  |  
EN
Auteur / Autrice : Thi Ngoc Ha Nguyen
Direction : Daniel GautheretYann Ponty
Type : Thèse de doctorat
Discipline(s) : Sciences de la vie et de la santé
Date : Soutenance le 18/12/2020
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Structure et dynamique des systèmes vivants (Gif-sur-Yvette, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut de biologie intégrative de la cellule (Gif-Sur-Yvette, Essonne ; 2015-....) - Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....)
Référent : Faculté des sciences d'Orsay
Jury : Président / Présidente : Marie-Hélène Mucchielli-Giorgi
Examinateurs / Examinatrices : William Ritchie, Duc-Hau Le, Laura Cantini
Rapporteur / Rapporteuse : William Ritchie, Duc-Hau Le

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Par sa capacité à capturer la diversité complète des transcrits produits par chaque cellule, la technologie de séquençage d’ARN à haut-débit (RNA-seq) a révolutionné notre vision de l’expression des gènes. Les données RNA-seq sont de plus en plus utilisées en médecine de précision afin d'établir les profils moléculaires des tumeurs, ou pour étudier des réseaux de gènes régissant l'adaptation d'une cellule à son environnement. Cependant, l’analyse RNA-seq qui classiquement se base sur la comparaison avec des séquences géniques de référence, est incapable d'identifier une grande part des ARN aberrants produits dans les maladies par altération du génome ou des processus de maturation. Notre projet vise à exploiter un nouveau concept pour l'analyse du transcriptome fondé sur des ''étiquettes'', ou k-mers, représentant l'intégralité des variations de séquences observées dans un transcriptome. Nous avons appliqué ce concept à la découverte de signatures diagnostiques ou pronostiques à partir de données RNA-seq du cancer de la prostate. A cette fin, nous avons appliqué différentes méthodes de réduction de dimension et de sélection de variable utilisées dans l'analyse transcriptomique classique. En raison de la très grande dimension des matrices de k-mers, ces méthodes ont nécessité des adaptations afin de réduire de manière drastique le nombre de variables à analyser. Nous sommes parvenu à établir un protocole informatique capable de réduire efficacement une matrice de k-mers issue du séquençage de plusieurs centaines de transcriptomes. A l'aide de ce protocole, nous avons pû produire de nouvelles signatures diagnostiques et pronostiques pour le cancer de la prostate. Ces signatures ''sans référence'' ne nécessitent pas de connaissance a priori sur le génome ou le transcriptome humain et sont au moins aussi performantes que les signatures géniques conventionnelles. De plus ces signatures contiennent des séquences d'ARN jamais identifiées, correspondant notamment à des variants d'ARNm ou à de nouveaux longs ARN non-codants qui pourront orienter les biologistes vers de nouveaux mécanismes d'oncogénèse.