Thèse soutenue

Intérêt de l'équilibre de Hardy-Weinberg et détection des délétions chromosomiques dans les données de séquençage d’exome à partir de grands ensembles de données

FR  |  
EN
Auteur / Autrice : Benedetta Bigio
Direction : Laurent Abel
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 04/12/2020
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Pierre Louis de santé publique : épidémiologie et sciences de l'information biomédicale (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Institut des Maladies Génétiques (Paris)
Jury : Président / Présidente : Lluis Quintana-Murci
Examinateurs / Examinatrices : Lluis Quintana-Murci, Hervé Perdry, Emmanuelle Génin, Anne-Louise B. Leutenegger
Rapporteurs / Rapporteuses : Hervé Perdry, Emmanuelle Génin

Résumé

FR  |  
EN

Un des principaux centres d'intérêt de la génétique humaine est l'identification des variants qui peuvent contribuer aux maladies humaines ou aux traits adaptatifs. Les approches de séquençage de nouvelle génération (NGS), y compris le séquençage de l'exome entier (WES), offrent des opportunités sans précédent pour découvrir de nouveaux variants impliqués dans la sensibilité ou la résistance à une pathologie. Le principe de base du WES est le séquençage des régions codantes, grâce auquel des sondes ADN sont utilisées pour s'hybrider avec la partie codante du génome. Après le séquençage, des millions de séquences d'ADN, appelées reads, sont alignées sur un génome de référence et sont analysées par différents outils, avec l'objectif d'identifier de nouvelles cibles pertinentes pour la question scientifique posée. Depuis leur création, les méthodes NGS, y compris le WES, ont fourni une énorme quantité de données qui posent des défis considérables pour leur analyse et l'interprétation des résultats correspondants. Ces avancées technologiques nécessitent de plus en plus le développement d'approches méthodologiques sophistiquées, générant ainsi de nouvelles questions de recherche afin d'optimiser l’analyse de ces données. Ainsi, les volumes de données d'exome accumulées au fil des ans permet de poser des questions scientifiques nouvelles. Ma thèse a porté sur ces aspects. Tout d'abord, j'ai développé une approche qui permet de filtrer les variants qui sont des faux positifs et qui n’étaient pas éliminés avec les approches bioinformatiques classiques. Nous avons regroupé ces variants dans une « blacklist » et les avons caractérisés in silico et de façon expérimentale. Nous avons en particulier montré qu'un sous-ensemble de ces variants ne respectaient pas l'équilibre de Hardy-Weinberg (HW), un principe fondamental de génétique des populations généralement utilisé comme critère de filtre dans les études de génotypage à grande échelle ( par exemple les études d’association génome entier). Sur la base de ces résultats initiaux, nous avons débuté une étude plus systématique de l'équilibre HW à plus grande échelle pour déterminer si ce test pourrait être utilisé non seulement pour détecter des erreurs techniques, mais aussi pour informer sur des phénomènes importants et pertinents en termes de génétique des populations. Nos données préliminaires se concentrant sur les variants avec un excès ou une perte d'homozygotes pour l'allèle mineur ont révélé certains variants candidats prometteurs qui pourraient indiquer un effet protecteur (dans FUT2, et SMN2) ou désavantageux (dans FANCD2) vis-à-vis ce certaines pathologies. Au cours de cette thèse, j'ai également abordé la question de la détection des variations du nombre de copies (CNV) dans les données WES. Les CNV sont une classe spécifique de variants traditionnellement difficiles à détecter dans les données d'exome de cohortes de laboratoire qui sont générées au fil du temps. Dans ma thèse, j'ai développé HMZDelFinder-opt, un algorithme qui permet d’optimiser la détection de délétions homozygotes et hémizygotes et d'identifier des délétions partielles d'exons. En utilisant HMZDelFinder_opt avec à la fois des délétions pathogènes validées et des données simulées, nous avons démontré que la sélection optimisée d'un ensemble d’exomes contrôles de référence avec un profil de couverture similaire à celui de l'échantillon WES étudié réduisait le nombre de délétions faussement détectées, tout en améliorant l’identification des véritables délétions homozygotes. HMZDelFinder_opt permet également de fournir un nouvel outil pour l'identification systématique des délétions partielles d'exon. Au total, les questions traités dans ma thèse ont permis de proposer des approches nouvelles afin d’améliorer l’identification de nouveaux déterminants génétiques de pathologies humaines.