Apprentissage non supervise pour l'epigenomique et transcriptomique en cellules uniques
Auteur / Autrice : | Felix Raimundo |
Direction : | Jean-Philippe Vert, Céline Vallot |
Type : | Thèse de doctorat |
Discipline(s) : | Bio-informatique |
Date : | Soutenance le 07/12/2022 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris) |
Partenaire(s) de recherche : | Laboratoire : Centre de bio-informatique (Fontainebleau, Seine et Marne) |
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....) | |
Jury : | Président / Présidente : Stein Aerts |
Examinateurs / Examinatrices : Jean-Philippe Vert, Céline Vallot, Olivier Gandrillon, Laura Cantini, Raussel Antonio | |
Rapporteur / Rapporteuse : Stein Aerts, Olivier Gandrillon |
Résumé
Ces dernières années, la transcriptomique et l'épigénomique en cellule unique ont permis aux biologistes d'observer lestissus à une nouvelle résolution. Grâce à ces protocoles, nous sommes maintenant en mesure d'observer l'ensemblede la distribution des états cellulaires dans un tissu, au lieu de simplement leur agrégat. Avec ces nouveaux types demesures, est apparu le besoin de nouvelles méthodes statistiques pour les analyser. En effet, la génération précédented'outils d'analyse était conçue pour un régime de peu d'échantillons de haute qualité, alors que ces nouvelles mesures sontbeaucoup plus importantes en quantité, mais de qualité nettement inférieure. Ce problème de faible qualité est encoreplus prononcé pour les protocoles d'épigénomique en cellule unique, du fait que les cellules ne possèdent que deux copiesdu génome, par rapport aux centaines de milliers de molécules d'ARN présentes dans la cellule. Le profil transcriptomiqueet épigénomique des cellules étant mesuré en grande dimension, la communauté scientifique s'est beaucoup intéresséeaux méthodes permettant de réduire la dimension des données.Cette explosion d'intérêt a conduit à de nombreux nouveaux algorithmes et à une communauté florissante de développeursde méthodes. Leurs travaux n'ont cependant pas encore été adoptés par les bioinformaticiens, soit parce qu'ils n'étaientpas jugés suffisamment fiables, soit parce qu'ils ne répondaient pas correctement aux questions biologiques. Dans cettethèse, nous avons tenté de mesurer la fiabilité de ces nouvelles méthodes, ainsi que la façon dont elles sont affectéespar les étapes qui les précèdent. Nous avons en outre tenté de développer un nouvel algorithme pour apprendre desreprésentations de mesures épigénétiques de bout en bout, apprenant ainsi à la fois la représentation des cellules, ainsiqu'une annotation du génome.