Analyse de la différenciation génétique à l'ère des nouvelles technologies de séquençage
Auteur / Autrice : | Valentin Hivert |
Direction : | Renaud Vitalis, Mathieu Gautier |
Type : | Thèse de doctorat |
Discipline(s) : | Génétique et génomique |
Date : | Soutenance le 14/12/2018 |
Etablissement(s) : | Montpellier, SupAgro |
Ecole(s) doctorale(s) : | GAIA (Montpellier ; École Doctorale ; 2015-...) |
Partenaire(s) de recherche : | Laboratoire : Centre de Biologie et de Gestion des Populations - UMR CBGP (Montpellier) |
Jury : | Président / Présidente : Joëlle Ronfort |
Examinateurs / Examinatrices : Renaud Vitalis, Mathieu Gautier, Anna-Sapfo Malaspinas, Christine Dillmann, Miguel Pérez-Enciso | |
Rapporteurs / Rapporteuses : Anna-Sapfo Malaspinas, Christine Dillmann |
Résumé
L’avancée des technologies de séquençage et de génotypage à haut-débit permet la comparaison de patrons de polymorphisme à un très grand nombre de marqueurs génétiques. L'analyse de la différenciation des populations à une échelle génomique rend ainsi possible la recherche de régions génomiques impliquées dans l’adaptation locale des organismes à leur environnement. Dans cette thèse, nous avons suivi deux approches complémentaires pour caractériser la différenciation génétique à partir de données de génotypage à haut-débit. Dans un premier temps, nous avons développé un estimateur non-biaisé du paramètre FST pour des données de génotypage d’individus en mélange (Pool-seq). La construction de cet estimateur, dans un contexte d’analyse de variance, a nécessité de bien prendre en compte les différentes étapes de l’échantillonnage : des gènes dans le mélange d'individus et des lectures de séquençage parmi les gènes. Nous montrons qu’il surpasse les estimateurs utilisés jusqu'à présent. Dans un deuxième temps, nous avons développé une méthode d'analyse de la différenciation génétique à l'échelle du génome, dans le cadre d’un modèle bayésien hiérarchique, pour distinguer l'effet de la démographie de celui de la sélection. Pour cela, nous avons implémenté plusieurs extensions au modèle SelEstim, pour exploiter l'information de déséquilibre de liaison entre les marqueurs. Une première stratégie a consisté à analyser des données multialléliques, obtenues par le regroupement local de marqueurs SNPs en blocs d'haplotypes. Une stratégie alternative a consisté à intégrer un modèle de lissage prenant en compte la dépendance spatiale entre marqueurs adjacents. Cette approche repose sur l'analyse de données bialléliques, ce qui la rend applicable à la fois à des données de génotypage individuel et à des données Pool-seq. Nous discutons, sur la base de l'analyse de jeux de données simulées, des mérites relatifs de ces différentes approches.