Thèse soutenue

La consanguinité à l'ère du génome haut-débit : estimations et applications

FR  |  
EN
Auteur / Autrice : Steven Gazal
Direction : Emmanuelle Génin
Type : Thèse de doctorat
Discipline(s) : Génétique statistique
Date : Soutenance le 24/06/2014
Etablissement(s) : Paris 11
Ecole(s) doctorale(s) : École doctorale Santé publique (Paris ; 2000-2015)
Partenaire(s) de recherche : Laboratoire : Variabilité Génétique et Maladies Humaines (Paris) - Variabilité Génétique et Maladies Humaines
Jury : Président / Présidente : Laurent Abel
Examinateurs / Examinatrices : Laurent Abel, Evelyne Heyer, Maria Martinez, Cécile Julier, Jean-François Zagury, Anne-Louise B. Leutenegger
Rapporteurs / Rapporteuses : Evelyne Heyer, Maria Martinez

Résumé

FR  |  
EN

Un individu est dit consanguin si ses parents sont apparentés et s’il existe donc dans sa généalogie au moins une boucle de consanguinité aboutissant à un ancêtre commun. Le coefficient de consanguinité de l’individu est par définition la probabilité pour qu’à un point pris au hasard sur le génome, l’individu ait reçu deux allèles identiques par descendance qui proviennent d’un seul allèle présent chez un des ancêtres communs. Ce coefficient de consanguinité est un paramètre central de la génétique qui est utilisé en génétique des populations pour caractériser la structure des populations, mais également pour rechercher des facteurs génétiques impliqués dans les maladies. Le coefficient de consanguinité était classiquement estimé à partir des généalogies, mais des méthodes ont été développées pour s’affranchir des généalogies et l’estimer à partir de l’information apportée par des marqueurs génétiques répartis sur l’ensemble du génome.Grâce aux progrès des techniques de génotypage haut-débit, il est possible aujourd’hui d’obtenir les génotypes d’un individu sur des centaines de milliers de marqueurs et d’utiliser ces méthodes pour reconstruire les régions d’identité par descendance sur son génome et estimer un coefficient de consanguinité génomique. Il n’existe actuellement pas de consensus sur la meilleure stratégie à adopter sur ces cartes denses de marqueurs en particulier pour gérer les dépendances qui existent entre les allèles aux différents marqueurs (déséquilibre de liaison). Dans cette thèse, nous avons évalué les différentes méthodes disponibles à partir de simulations réalisées en utilisant de vraies données avec des schémas de déséquilibre de liaison réalistes. Nous avons montré qu’une approche intéressante consistait à générer plusieurs sous-cartes de marqueurs dans lesquelles le déséquilibre de liaison est minimal, d’estimer un coefficient de consanguinité sur chacune des sous-cartes par une méthode basée sur une chaîne de Markov cachée implémentée dans le logiciel FEstim et de prendre comme estimateur la médiane de ces différentes estimations. L’avantage de cette approche est qu’elle est utilisable sur n’importe quelle taille d’échantillon, voire sur un seul individu, puisqu’elle ne demande pas d’estimer les déséquilibres de liaison. L’estimateur donné par FEstim étant un estimateur du maximum de vraisemblance, il est également possible de tester si le coefficient de consanguinité est significativement différent de zéro et de déterminer la relation de parenté des parents la plus vraisemblable parmi un ensemble de relations. Enfin, en permettant l’identification de régions d’homozygoties communes à plusieurs malades consanguins, notre stratégie peut permettre l’identification des mutations récessives impliquées dans les maladies monogéniques ou multifactorielles.Pour que la méthode que nous proposons soit facilement utilisable, nous avons développé le pipeline, FSuite, permettant d’interpréter facilement les résultats d’études de génétique de populations et de génétique épidémiologique comme illustré sur le panel de référence HapMap III, et sur un jeu de données cas-témoins de la maladie d’Alzheimer.