'Analyses intégrées de données RNA-seq à grande échelle dans les leucémies aigues Myéloïdes'
Auteur / Autrice : | Raíssa Lorena Silva da silva |
Direction : | Thérèse Commes-maerten |
Type : | Projet de thèse |
Discipline(s) : | Biologie Santé |
Date : | Inscription en doctorat le Soutenance le 13/12/2024 |
Etablissement(s) : | Université de Montpellier (2022-....) |
Ecole(s) doctorale(s) : | Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : IRMB - Cellule souches, plasticité cellulaire, régénération tissulaire et immunothérapie des maladies inflammatoires |
Equipe de recherche : Genome and stem cell plasticity in development and ageing. | |
Jury : | Président / Présidente : Stéphane Pyronnet |
Examinateurs / Examinatrices : Thérèse Commes-maerten, Yann Lecunff, Anthony Boureux, Pierre Peyret, Sarah Djebali | |
Rapporteurs / Rapporteuses : Pierre Peyret, Sarah Djebali |
Mots clés
Résumé
Le RNA-seq est une méthode largement adoptée dans le domaine de la médecine de précision pour caractériser de nouveaux biomarqueurs et apporter de nouvelles pistes thérapeutiques. Avec laugmentation des données RNAseq disponibles, le défi dans les analyses à grande échelle se pose. Pour résoudre ce problème, les scientifiques ont utilisé des méthodes statistiques de réduction de dimension des données et ont appliqué des méthodes d'apprentissage automatique pour capturer des informations dans des données biologiques complexes contenues dans le RNAseq. Cependant la plupart de ces analyses se limitent aux informations portées par les annotations ou transcriptome de référence, ce qui nécessite de nouvelles méthodes pour étudier l'information biologique inconnue. Dans ce travail de thèse, nous proposons l'analyse à grande échelle de données RNA-seq issues de cohortes de patients atteints de leucémie myéloïde aiguë (LAM) afin de réaliser des analyses transcriptomiques. Les approches que nous proposons sont reference-free et basées sur des méthodes d'apprentissage automatique. À cette fin, le présent manuscrit est divisé en cinq chapitres. Dans le chapitre A, nous présentons les concepts de la biologie et des fondamentaux de la bioinformatique pour comprendre les données et la technologie utilisées. Dans le chapitre B, nous présentons les méthodes et les algorithmes utilisés dans les processus d'apprentissage automatique pour traiter le problème de données de grande dimension et de prédiction. Dans le chapitre C, nous présentons les concepts de biomarqueurs et l'état de lart des approches utilisées dans la littérature récente. Les résultats de la thèse sont présentés dans le chapitre D et divisés en trois sections : K-mer et métadonnées, K-mer et transcriptome, et K-mer et biomarqueurs. Dans la 1er section « K-mer et métadonnées », nous abordons la problématique pour travailler avec des données RNA-seq disponibles dans les archives publiques. La collecte de ces ensembles de données présente plusieurs défis allant dautorisations spécifiques pour certaines à des questions de disponibilité de metadata pour dautres. Les techniques présentées dans notre première publication basées sur les k-mers nous ont aidé à identifier et à confirmer les métadonnées. Dans la section « K-mer et Transcriptome », nous présentons un nouveau pipeline KITE (K-mer Integration for Transcriptomic Exploration) pour analyser les données RNAseq à l'aide d'une approche sans référence, d'un processus de réduction de dimension et de méthodes d'apprentissage automatique. Notre pipeline prédit le statut de mutation chez les patients atteints de LAM avec une précision de plus de 95 % pour des cohortes indépendantes. Nous avons également montré que KITE a des performances de prédiction similaires (et dans certaines cohortes, meilleures) que les méthodes conventionnelles, en identifiant les gènes déjà publiés comme biomarqueurs, ainsi de nouveaux marqueurs. Dans la section « K-mer et biomarqueur », nous présentons des applications de KITE pour identifier des biomarqueurs candidats dans les cohortes LAM. Nous avons montré (1) l'influence des algorithmes d'apprentissage automatique pour prédire différentes conditions, (2) la prédiction du statut de mutation de NPM1 et les biomarqueurs identifiés, et (3) la prédiction de la stratification du risque pour les patients atteints de LAM dans différents groupes et l'implication des biomarqueurs identifiés dans la survie. Enfin, le chapitre E présente les principaux points constatés au cours de l'élaboration de cette recherche, les défis qui restent à relever et la perspective des travaux.