Thèse soutenue

Apprentissage non supervise pour l'epigenomique et transcriptomique en cellules uniques

FR  |  
EN
Auteur / Autrice : Felix Raimundo
Direction : Jean-Philippe VertCéline Vallot
Type : Thèse de doctorat
Discipline(s) : Bio-informatique
Date : Soutenance le 07/12/2022
Etablissement(s) : Université Paris sciences et lettres
Ecole(s) doctorale(s) : Ecole doctorale Ingénierie des Systèmes, Matériaux, Mécanique, Énergétique (Paris)
Partenaire(s) de recherche : Laboratoire : Centre de bio-informatique (Fontainebleau, Seine et Marne)
établissement de préparation de la thèse : École nationale supérieure des mines (Paris ; 1783-....)
Jury : Président / Présidente : Stein Aerts
Examinateurs / Examinatrices : Jean-Philippe Vert, Céline Vallot, Olivier Gandrillon, Laura Cantini, Raussel Antonio
Rapporteur / Rapporteuse : Stein Aerts, Olivier Gandrillon

Résumé

FR  |  
EN

Ces dernières années, la transcriptomique et l'épigénomique en cellule unique ont permis aux biologistes d'observer lestissus à une nouvelle résolution. Grâce à ces protocoles, nous sommes maintenant en mesure d'observer l'ensemblede la distribution des états cellulaires dans un tissu, au lieu de simplement leur agrégat. Avec ces nouveaux types demesures, est apparu le besoin de nouvelles méthodes statistiques pour les analyser. En effet, la génération précédented'outils d'analyse était conçue pour un régime de peu d'échantillons de haute qualité, alors que ces nouvelles mesures sontbeaucoup plus importantes en quantité, mais de qualité nettement inférieure. Ce problème de faible qualité est encoreplus prononcé pour les protocoles d'épigénomique en cellule unique, du fait que les cellules ne possèdent que deux copiesdu génome, par rapport aux centaines de milliers de molécules d'ARN présentes dans la cellule. Le profil transcriptomiqueet épigénomique des cellules étant mesuré en grande dimension, la communauté scientifique s'est beaucoup intéresséeaux méthodes permettant de réduire la dimension des données.Cette explosion d'intérêt a conduit à de nombreux nouveaux algorithmes et à une communauté florissante de développeursde méthodes. Leurs travaux n'ont cependant pas encore été adoptés par les bioinformaticiens, soit parce qu'ils n'étaientpas jugés suffisamment fiables, soit parce qu'ils ne répondaient pas correctement aux questions biologiques. Dans cettethèse, nous avons tenté de mesurer la fiabilité de ces nouvelles méthodes, ainsi que la façon dont elles sont affectéespar les étapes qui les précèdent. Nous avons en outre tenté de développer un nouvel algorithme pour apprendre desreprésentations de mesures épigénétiques de bout en bout, apprenant ainsi à la fois la représentation des cellules, ainsiqu'une annotation du génome.