Déconvolution hiérarchique non supervisée appliquée aux données d'expression génique pour élucider la complexité du micro-environnement tumoral
Auteur / Autrice : | Nicolas Sompairac |
Direction : | Andrei Zinovyev, Inna Kuperstein |
Type : | Thèse de doctorat |
Discipline(s) : | Génétique, omiques, bioinformatique et biologie des systèmes |
Date : | Soutenance le 10/12/2021 |
Etablissement(s) : | Université Paris Cité |
Ecole(s) doctorale(s) : | École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....) |
Partenaire(s) de recherche : | Laboratoire : Cancer et génôme: Bioinformatique, biostatistiques et épidémiologie d'un système complexe |
Jury : | Président / Présidente : Aurélien de Reyniès |
Examinateurs / Examinatrices : Aurélien de Reyniès, Tatiana Popova, Elana Judith Fertig, Wolfram Liebermeister, Anna Niarakis | |
Rapporteurs / Rapporteuses : Tatiana Popova, Elana Judith Fertig |
Mots clés
Mots clés contrôlés
Résumé
Les tumeurs solides sont caractérisées par une organisation complexe de l’écosystème dans lequel les cellules tumorales résident et se développent, appelé le Micro Environnement Tumoral (TME). Ce TME est la cible privilégiée de l’immunothérapie qui cible à impacter de manière critique la croissance d’une tumeur ou son potentiel invasif et métastatique. De ce fait, caractériser le contenu et l'état du TME d’un patient atteint du cancer est une priorité. Cependant, dû à la large variabilité du TME et de sa complexité cellulaire et moléculaire, il est parfois difficile d’exploiter les connaissances pré-existantes sur les propriétés de ses continuants, souvent obtenues dans des contextes différents. Pour cette raison, il devient intéressant de tirer profit des approches non supervisées ou exploratoires en se basant sur les données de cancer disponibles qui ne requièrent pas de fixer une forte connaissance a priori par avance. Les outils mathématiques de machine learning comme les différentes catégories de méthodes de factorisation matricielle ont démontré leur utilité dans ce but. Dans mon travail, c’est au travers de l’utilisation d’une méthode de factorisation matricielle nommée Analyse par Composantes Indépendantes (ICA) que j’ai développé une méthode computationnelle visant à disséquer l’expression des gènes et d’autres types de données omiques, ainsi que pour extraire les signaux liés à l'infiltration immunitaire dans le TME. L’ICA récupère les sources indépendantes venant de la variation d'expression des gènes sous la forme de poids associés à tous les gènes mesurés. Mais même si cette méthode a prouvé son efficacité pour la tâche de déconvolution computationnelle ainsi que d’autres applications sur des données du cancer, dû à sa nature non supervisée, elle comporte certaines complications lorsque vient le besoin de sélectionner le nombre de signaux que nous attendons dans les données ou lorsqu’on veux interpréter ces signaux. Pour soulager ce problème de choisir une dimension spécifique pour la décomposition des données, une nouvelle méthode HACK (Hierarchical Analysis of Component linKs) a été développée pour permettre d’analyser les signaux sur un assortiment de plusieurs dimensions en tant qu’une hiérarchie interconnectée ainsi que de caractériser le transcriptome comme un groupe de métagènes persistants, reproductibles sur plusieurs ordres de décomposition. Cette approche permet non seulement d’avoir une idée sur la qualité et la reproductibilité des signaux récupérés mais aussi d’aider à reconstruire les relations parmi eux. Pour l’interprétation des signaux extraits, je propose d’exploiter les reconstructions complètes des voies de signalisation pour tirer des conclusions sur le sens biologique des signatures moléculaires dérivées des données. Par conséquence, dans ce projet j'ai participé à la production et l’exploitation de plusieurs cartes moléculaires détaillées reliées à la biologie du cancer comme la carte du rôle du système immunitaire inné dans le cancer ou la carte sur la régulation de la mort cellulaire. En définitive, c’est au travers de l’utilisation d’analyses de données non supervisées, couplées à une description détaillée des interactions moléculaires que nous pouvons commencer à démêler la complexité du TME, d’une manière complémentaire aux autres méthodes.