Développements méthodologiques pour l'étude du rôle des variants récessifs rares dans les maladies multifactorielles
Auteur / Autrice : | Sidonie Foulon |
Direction : | Hervé Perdry, Anne-Louise Leutenegger |
Type : | Projet de thèse |
Discipline(s) : | Génétique épidémiologique et statistique |
Date : | Inscription en doctorat le 01/10/2022 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Santé Publique |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en épidémiologie et Santé des populations |
Equipe de recherche : Biostatistique en grande dimension | |
Référent : Faculté de médecine |
Mots clés
Résumé
Depuis deux décennies, les études d'association avec le génome entier (GWAS, pour Genome-wide Association Studies) ont permis la détection de nombreux variants génétiques associés à des traits complexes. Ces études sont basées sur un modèle additif où les hétérozygotes ont un risque intermédiaire entre ceux des deux homozygotes ; elles n'ont pas la puissance statistique nécessaire à la détection de variants génétiques récessifs rares. Une approche alternative consiste à se concentrer sur l'analyse de longs segments d'ADN homozygotes par descendance (HBD, pour Homozygous by Descent). En effet, si des formes récessives de la maladie étudiée existent, on s'attend à ce que, chez les patients, les segments HBD soient plus fréquents et plus longs, et à des niveau de consanguinité (la proportion de segments HBD le long du génome) plus élevés. La stratégie la plus commune pour identifier les segments HBD est de rechercher des régions où tous les variants observés sont homozygotes. De telles régions sont appelées ROH, pour Runs of Homozygosity. Cependant, cette méthode descriptive, sans modèle sous-jacent, produit des résultats limités et difficiles à reproduire, du fait en particulier qu'il n'y a pas de définition « de référence » pour les ROH. Nous proposons dans cette thèse de développer une approche alternative, construite dans un cadre probabiliste. Il s'agit de modéliser la distribution des régions HBD le long du génome comme une chaîne de Markov cachée, ce qui permet de prendre en compte à la fois les fréquences alléliques aux marqueurs observés, et les propriétés spatiales de l'homozygosie par descendance. Ce modèle sera étendu de façon à améliorer la reconstruction de l'information HBD et à permettre l'utilisation d'échantillons d'ascendance mixte et les génotypes imputés. L'information HBD obtenue à partir du génome de chaque individu sera ensuite utilisée pour tester l'association avec le risque de maladie dans un échantillon cas-témoin. Cette méthode sera comparée à la méthode ROH sur des données simulées, ainsi que sur des données sur le cancer différencié de la thyroïde (EPITHYR/EPIC) et des données issue de l'UK BioBank. Les développements méthodologiques seront intégrés dans un package R qui sera librement mis à disposition de la communauté scientifique.