Reconstruction de la variabilite des domaines tridimensionnels de la chromatine dans les cellules cancereuses du sein en utilisant une nouvelle approche de sequencage nanopore « Nano-C »

par Julie Segueni

Projet de thèse en Sciences de la vie et de la santé

Sous la direction de Daan Noordermeer.

Thèses en préparation à université Paris-Saclay , dans le cadre de École doctorale Structure et Dynamique des Systèmes Vivants , en partenariat avec Institut de Biologie Intégrative de la Cellule (laboratoire) et de Faculté des sciences d'Orsay (référent) depuis le 01-10-2020 .


  • Résumé

    Une caractéristique majeure des cellules cancéreuses est l'altération de leur séquence d'ADN, qui inclut à la fois des mutations et une instabilité génomique plus importante (Hanahan et Weinberg, 2011). Ces changements peuvent modifier les programmes d'expression des gènes par le biais d'une multitude de mécanismes, lesquels peuvent à leur tour renforcer le phénotype cancéreux. La structure tridimensionnelle (3D) du génome est de plus en plus reconnue comme un régulateur de l'expression génique. Un lien direct entre la structure 3D du génome et les modifications de l'expression des gènes a été confirmé dans les cellules cancéreuses du sein, où des ensembles de gènes changent de manière significative leur position dans le noyau leur activité est modifiée, bien qu'il existe un degré élevé de variation d'une cellule à l'autre (par exemple Meaburn et al, 2009). La découverte des « Domaines d'Association Topologique » (TAD) a considérablement modifiée notre compréhension de la régulation des gènes (Dixon et al, 2011 et Nora et al, 2011). Les TADws constituent des « regulatory domains » qui isolent les gènes et les éléments régulateurs associés du reste du génome (e.g. enhancers). Les TADs eux-mêmes sont formés par la liaison de la protéine CTCF à leurs frontières. Les modèles actuels proposent que les frontières des TADs empêcheraient la formation de contacts inappropriés entre un gène et un enhancer localisés dans des domaines voisins. De plus en plus d'éléments tendent à montrer que les perturbations des TADs ou les mutations des sites de liaison de CTCF à leurs frontières peuvent jouer un rôle moteur dans la cancérogenèse (Katainen et al, 2015; Hnisz et al, 2016 et Flavahan et al, 2016). La majorité des mutations dans les cellules cancéreuses n'affectent qu'un allèle. La technologie la plus courante pour détecter et étudier les TADs, la technique de Hi-C, présente des données moyennées à l'échelle de la population, ce qui limite sa capacité à déterminer les contributions spécifiques d'un l'allèle à la réorganisation des TADs dans les cellules cancéreuses. Le Hi-C a toutefois déjà été utilisé pour décrire la réorganisation générale du génome dans les cellules MCF7 et T47D, couramment utilisées comme modèle du cancer du sein (Barutcu et al, 2015 et Le Dily et al, 2014). Au laboratoire, nous avons récemment développé une nouvelle technologie : le «Nano-C», une méthode de capture de conformation chromosomique (3C) qui fournit des informations à haute résolution sur la structure 3D des TADs définis à partir d'allèles uniques dans des cellules individuelles. Le Nano-C combine l'enrichissement sans PCR de longs fragments issus de banques 3C, en utilisant une amplification par transcription in vitro, avec le séquençage d'ARN direct en utilisant la plateforme Oxford Nanopore MinION (Marx, 2015 et Garalde et al., 2018). L'objectif du projet est de déterminer dans quelle mesure la diversité allélique de cellules cancéreuses affecte la structure de la chromatine et le rendement transcriptionnel, en tirant parti du Nano-C pour discriminer les allèles. Dans la pratique, nous combinerons les données Nano-C avec des données nouvellement générées au laboratoire et/ou disponibles dans les bases de données pour les lignées cellulaires MCF7 et T47D, couramment utilisées comme modèles du cancer du sein. En parallèle des données Nano-C, nous collecterons notamment des informations sur: - les allèles et mutations présentes (ADN-seq) - l'occupation de chaque allèle par CTCF et la Cohesin (ChIP-seq) - l'organisation 3D globale de la chromatine, à l'échelle de la population (Hi-C, 4C-seq) - la production transcriptionnelle à l'échelle de la population (ARN-seq) L'intersection des toutes ces données fournira une vue complète : 1. des effets du paysage mutationnel sur la liaison de CTCF à des allèles spécifiques dans les lignées MCF7 et T47D. 2. dans quelle mesure, les modifications alléliques de la fixation de CTCF remodèlent la structure des TADs et la transcription des gènes voisins, dans les lignées MCF7 et T47D. Une collaboration établie (David Holcman, ENS Paris) permettra d'utiliser ces données comme entrées pour des modélisations biophysiques de type polymère, permettant ainsi une première vue détaillée des modifications de la structure sous-jacente du TAD. Ensemble, nous espérons que le projet fournira d'une part des informations fondamentales, expliquant comment la séquence d'ADN façonne la structure du TAD, et d'autre part des informations relatives à la carcinogenèse et comment la réorganisation de la liaison de CTCF et de la structure du TAD entraîne des modifications de l'expression des gènes.

  • Titre traduit

    Reconstructing variability of 3D DNA domains in breast cancer cells by using a novel nanopore sequencing-based 'Nano-C' assay


  • Résumé

    A major hallmark of cancer cells is changes to their genomic sequence, both including mutations and more large scale instability (Hanahan and Weinberg, 2011). These changes can change gene expression programs through a plethora of mechanisms, which in turn can drive the cancerous phenotype. Three-dimensional (3D) genome structure is increasingly recognized as regulator of gene expression. A direct link between 3D genome structure and changes in gene expression has been confirmed in breast cancer cells, where sets of genes significantly change their position in the nucleus upon changes in their activity, albeit with a large degree of cell-to-cell variation (e.g. Meaburn et al, 2009). The discovery of “Topologically Associating Domains” (TADs) has importantly changed our understanding how genes are regulated (Dixon et al, 2011 and Nora et al, 2011). TADs constitute “regulatory domains” that isolate genes and their associated regulatory elements from the rest of the genome. TADs themselves are shaped by binding of the CTCF protein at their borders. A view is emerging where TADs prevent the formation of inappropriate gene-enhancer contacts between neighboring domains. Increasing evidence suggests that disruptions of TADs or mutations of CTCF binding sites at their borders can act as a driver for carcinogenesis (Katainen et al, 2015; Hnisz et al, 2016 and Flavahan et al, 2016). The majority of mutations in cancer cells only affect one allele. The most common technology to study TADs, Hi-C, has a population-averaged read-out, which limits its capacity to determine allele-specific changes to TAD reorganization in cancer cells. Hi-C has previously been used though, to describe overall genome reorganization in the commonly used MCF7 and T47D breast-cancer cells (Barutcu et al, 2015 and Le Dily et al, 2014). We have recently developed 'Nano-C', a Chromosome Conformation Capture (3C) assay that provides high-resolution information on the 3D structure of defined TADs from single alleles in individual cells. Nano-C combines PCR-free enrichment of long 3C fragments, using in-vitro transcription, with direct-RNA sequencing using the Oxford Nanopore MinION platform (Marx, 2015 and Garalde et al., 2018). The aim of the project is to determine how allele-specific changes in the DNA sequence of cancer cells affects chromatin structure and transcriptional output, by taking advantage of Nano-C to discriminate between alleles. Practically, we will combine Nano-C data with newly generated and published data from commonly used breast cancer cell lines (MCF7 and T47D), including: - allele-specific information on changes to the DNA sequence (DNA-seq) - allele-specific information on DNA occupation of CTCF and Cohesin (ChIP-seq) - population-wide information on global 3D organization (Hi-C, 4C-seq) - population-wide information on transcriptional output After bioinformatics data intersection, these data will provide a comprehensive view of: 1. how the mutational landscape affects allele-specific CTCF binding in the commonly used MCF7 and T47D breast-cancer cell lines 2. how changes in allele-specific CTCF binding remodels TAD structure and transcriptional output in the commonly used MCF7 and T47D breast-cancer cell lines In an established collaboration (David Holcman, ENS Paris), these data will further by used as input for biophysical polymer modeling, thereby allowing a first detailed view of changes in underlying TAD structure. Combined, we expect that the project will provide both more fundamental information, explaining how the DNA sequence shapes TAD structure, and information relevant to carcinogenesis, how reorganization of CTCF binding and TAD structure results in changes in gene expression.