Thèse soutenue

Déconvolution hiérarchique non supervisée appliquée aux données d'expression génique pour élucider la complexité du micro-environnement tumoral

FR  |  
EN
Auteur / Autrice : Nicolas Sompairac
Direction : Andrei ZinovyevInna Kuperstein
Type : Thèse de doctorat
Discipline(s) : Génétique, omiques, bioinformatique et biologie des systèmes
Date : Soutenance le 10/12/2021
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....)
Partenaire(s) de recherche : Laboratoire : Cancer et génôme: Bioinformatique, biostatistiques et épidémiologie d'un système complexe
Jury : Président / Présidente : Aurélien de Reyniès
Examinateurs / Examinatrices : Aurélien de Reyniès, Tatiana Popova, Elana Judith Fertig, Wolfram Liebermeister, Anna Niarakis
Rapporteurs / Rapporteuses : Tatiana Popova, Elana Judith Fertig

Résumé

FR  |  
EN

Les tumeurs solides sont caractérisées par une organisation complexe de l’écosystème dans lequel les cellules tumorales résident et se développent, appelé le Micro Environnement Tumoral (TME). Ce TME est la cible privilégiée de l’immunothérapie qui cible à impacter de manière critique la croissance d’une tumeur ou son potentiel invasif et métastatique. De ce fait, caractériser le contenu et l'état du TME d’un patient atteint du cancer est une priorité. Cependant, dû à la large variabilité du TME et de sa complexité cellulaire et moléculaire, il est parfois difficile d’exploiter les connaissances pré-existantes sur les propriétés de ses continuants, souvent obtenues dans des contextes différents. Pour cette raison, il devient intéressant de tirer profit des approches non supervisées ou exploratoires en se basant sur les données de cancer disponibles qui ne requièrent pas de fixer une forte connaissance a priori par avance. Les outils mathématiques de machine learning comme les différentes catégories de méthodes de factorisation matricielle ont démontré leur utilité dans ce but. Dans mon travail, c’est au travers de l’utilisation d’une méthode de factorisation matricielle nommée Analyse par Composantes Indépendantes (ICA) que j’ai développé une méthode computationnelle visant à disséquer l’expression des gènes et d’autres types de données omiques, ainsi que pour extraire les signaux liés à l'infiltration immunitaire dans le TME. L’ICA récupère les sources indépendantes venant de la variation d'expression des gènes sous la forme de poids associés à tous les gènes mesurés. Mais même si cette méthode a prouvé son efficacité pour la tâche de déconvolution computationnelle ainsi que d’autres applications sur des données du cancer, dû à sa nature non supervisée, elle comporte certaines complications lorsque vient le besoin de sélectionner le nombre de signaux que nous attendons dans les données ou lorsqu’on veux interpréter ces signaux. Pour soulager ce problème de choisir une dimension spécifique pour la décomposition des données, une nouvelle méthode HACK (Hierarchical Analysis of Component linKs) a été développée pour permettre d’analyser les signaux sur un assortiment de plusieurs dimensions en tant qu’une hiérarchie interconnectée ainsi que de caractériser le transcriptome comme un groupe de métagènes persistants, reproductibles sur plusieurs ordres de décomposition. Cette approche permet non seulement d’avoir une idée sur la qualité et la reproductibilité des signaux récupérés mais aussi d’aider à reconstruire les relations parmi eux. Pour l’interprétation des signaux extraits, je propose d’exploiter les reconstructions complètes des voies de signalisation pour tirer des conclusions sur le sens biologique des signatures moléculaires dérivées des données. Par conséquence, dans ce projet j'ai participé à la production et l’exploitation de plusieurs cartes moléculaires détaillées reliées à la biologie du cancer comme la carte du rôle du système immunitaire inné dans le cancer ou la carte sur la régulation de la mort cellulaire. En définitive, c’est au travers de l’utilisation d’analyses de données non supervisées, couplées à une description détaillée des interactions moléculaires que nous pouvons commencer à démêler la complexité du TME, d’une manière complémentaire aux autres méthodes.