Thèse soutenue

Application des approches bio-informatiques pour la compréhension des maladies par l'analyse des données génomiques et transcriptomiques

FR  |  
EN
Auteur / Autrice : Yufei Luo
Direction : Antonio Rausell
Type : Thèse de doctorat
Discipline(s) : Génétique
Date : Soutenance le 09/07/2024
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Bio Sorbonne Paris Cité (Paris ; 2014-....)
Partenaire(s) de recherche : Laboratoire : Institut des Maladies Génétiques (Paris)
Jury : Président / Présidente : Andrée Delahaye-Duriez
Rapporteurs / Rapporteuses : Chunlong Chen, Florence Coulet

Résumé

FR  |  
EN

Cette thèse, réalisée dans le cadre de la Validation des Acquis de l'Expérience (VAE), présente deux sujets distincts liés à l'application des approches bio-informatiques pour comprendre les maladies. Le premier sujet explore l'analyse des données génomiques, tandis que le second se concentre sur l'analyse des données transcriptomiques. Premier sujet : les gènes humains homozygotes pour des variants apparents de perte de fonction (LoF) sont de plus en plus signalés chez une proportion importante d'individus sans phénotypes cliniques évidents. Nous avons trouvé 166 gènes avec 179 variants LoF prédits pour lesquels la fréquence d'individus homozygotes dépasse 1 % dans au moins l'une des populations présentes dans les bases de données ExAC et gnomAD. Ces gènes potentiellement dispensables présentent un relâchement des contraintes sélectives, suggérant qu'une proportion importante de ces gènes pourrait être en train de subir une pseudogénisation. Huit de ces variants LoF ont affiché des signaux robustes de sélection positive, dont deux variants dans des gènes impliqués dans la résistance aux maladies infectieuses. L'identification de gènes dispensables facilitera la découverte de fonctions qui sont maintenant redondantes, voire même avantageuses, pour la survie humaine. Deuxième sujet : la technologie d'ARN monocellulaire (scRNA) a été développée pour atténuer les limitations de résolution de la séquence d'ARN en vrac en fournissant des profils d'expression génique au niveau de la cellule unique, révélant ainsi de nombreuses utilités dans le domaine de la recherche, telles que l'identification des populations cellulaires, la réponse de la résistance ou de la sensibilité cellulaire à un traitement, les trajectoires cellulaires et les interactions cellule-cellule. L'identification des populations cellulaires (annotation des types cellulaires) est le point clé de cette étude. J'ai utilisé des modèles de lignées cellulaires bien caractérisées, telles que Jurkat pour les lymphocytes T, SK-MEL-2 pour les cellules mélanome, Daudi et OCI-LY18 pour les cellules lymphocytes B, pour construire des échantillons de scRNA avec une proportion attendue de mélanges de populations cellulaires afin d'explorer les défis de l'annotation des types cellulaires. J'ai démontré que nous pouvons identifier des types cellulaires rares (< 2 %) dans ces données de scRNA en utilisant des méthodes bioinformatiques. Les données multiomiques au sein de plusieurs modalités omiques, telles que les données de transcriptomique spatiale (ST), se distinguent pour aider à comprendre l'hétérogénéité cellulaire avec plus de preuves biologiques. J'ai utilisé des données ST du cancer du pancréas adénocarcinome canalaire (PDAC) pour explorer la robustesse potentielle de l'identification des types cellulaires.