Thèse soutenue

Optimisation de la détection et de l'interpretation des variations génomiques issues de données d'exomes pour les études cas-contrôles

FR  |  
EN
Auteur / Autrice : Olivier Quenez
Direction : Gaël Nicolas
Type : Thèse de doctorat
Discipline(s) : Sciences de la vie et de la sante
Date : Soutenance le 19/12/2023
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale Normande de biologie intégrative, santé, environnement (Mont-Saint-Aignan, Seine-Maritime)
Partenaire(s) de recherche : Laboratoire : Cancer and Brain Genomics (Rouen ; 2022-....) - Cancer and Brain Genomics / CBG
Établissement co-accrédité : Université de Rouen Normandie (1966-....)
Jury : Président / Présidente : Julien Thévenon
Examinateurs / Examinatrices : Gaël Nicolas, Julien Thévenon, Céline Bellenguez, Emmanuelle Génin
Rapporteurs / Rapporteuses : Marie de Tayrac, Sébastien Jacquemont

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Au cours des 20 dernières années, l'évolution des nouvelles technologies a révélé la grande variabilitéde notre génome depuis la simple substitution jusqu'aux réarrangements chromosomiques. Lestechnologies de séquençage à haut débit ont particulièrement amélioré l’identification etl’interprétation des variations de petite taille tout en offrant l’opportunité d’explorer les variations destructure avec une résolution supérieure à celle disponible grâce aux analyses pangénomiques surpuces. Néanmoins, l’identification des variations de structure, et plus particulièrement des variationsdu nombre de copies (CNV) à partir de données de séquençage par capture, a été sous exploitée etpeu évaluée. Notre objectif principal était de mettre en place un pipeline bioinformatique basé sur laprofondeur de lecture pour l’identification des CNV, puis de l’appliquer à une études cas-témoinsd’exome dans le cadre de la recherche sur la maladie d’Alzheimer.La maladie d’Alzheimer (MA) est la maladie neurodégénérative la plus fréquente. Les facteursgénétiques individuels jouent un rôle important dans son déterminisme et de multiples facteurs derisque ont été identifiés, essentiellement des substitutions et petites insertions/délétions. Pourtant,des variations de structure ont déjà été identifiées dans des formes monogéniques de MA, comme lesduplications complètes du gène APP. Les CNV restent très peu étudiés dans la MA et nous avonssouhaité appliquer une approche cas-témoins à partir de données massives d’exomes pour détecterdes CNV contribuant au risque de MA.Dans un premier temps, nous avons établi une stratégie d'analyse basée sur le logiciel CANOES afin dedétecter les CNV à partir de données de NGS issues d’une capture (panel, exomes). Cette approche aété validée à travers deux grands jeux de données de panels et d’exomes comparés à des techniquesindépendantes. Dans le premier jeu de données (panels), la sensibilité et la spécificité étaient de 100%et nous obtenons une sensibilité de 87,25 % et une valeur prédictive positive de 88,5% sur la détectionde CNV sur les données de séquençage d'exomes.Par la suite, nous avons appliqué cette approche aux données d’exomes issues des consortium ADES(Alzheimer Disease Exome Sequencing) et ADSP (Alzheimer Disease Sequencing Project), regroupant,après un contrôle qualité extensif développé dans le cadre de ces travaux, 22 094 individus répartisentre 4077 formes précoces de MA, 8458 formes tardives et 9559 témoins. Nous avons mis au pointdes analyses au niveau des transcrits et appliqué une méthode statistique basée sur les dosagesappliquée aux formes précoces et aux témoins. Nous avons pu identifier plusieurs potentiels nouveauxfacteurs de risque dont la région du chr22q11.21, déjà impliquée dans les troubles duneurodéveloppement (p=3,8x10-4). De plus, nous avons identifié des délétions très rares dans lesgènes ABCA1 et ABCA7 dont les variations perte de fonction sont connues comme facteurs de risquede MA depuis peu, et nous avons réalisé une analyse conjointe des délétions et des variations pertede fonction de petite taille.En conclusion, nous avons montré que la détection de CNV issus de données d’exome est fiable et nousen avons mesuré les performances et les limites avant de les appliquer à un grand jeu de données afind’identifier de nouveaux mécanismes contribuant au développement de la maladie d’Alzheimer.