Utilisation des données de séquence pour la cartographie fine et l'évaluation génomique des caractères d'intérêt des caprins laitiers français

par Estelle Talouarn

Thèse de doctorat en Pathologie, Toxicologie, Génétique et Nutrition

Sous la direction de Christèle Robert-Granié et de Rachel Rupp.

Le président du jury était Laurence Moreau.

Le jury était composé de Christèle Robert-Granié, Rachel Rupp, Thomas Faraut.

Les rapporteurs étaient Didier Boichard, Tom Druet.


  • Résumé

    La filière caprine française a intégré l’ère de la génomique avec le récent développement et la valorisation d’une puce à ADN dans les années 2010-2020 pour la recherche de QTL et l’évaluation génétique. La démocratisation des données de séquençage tout génome pour les animaux de rente ouvre de nouvelles perspectives. Le projet VarGoats, a pour but de mettre à disposition d’un consortium international, un jeu de données de plus de 1000 séquences pour l’espèce Capra hircus. L’étude de la qualité d’imputation vers la séquence dans la filière caprine est un préalable nécessaire à l’utilisation de cette dernière dans les analyses d’association pour la détection de QTL ainsi que dans les évaluations génomiques. L’objectif principal de ces travaux est d’étudier l’intégration potentielle des données de séquence dans les programmes d’amélioration génétique de la filière laitière caprine française. La mise en place d’un contrôle de la qualité des données de séquence a représenté un travail majeur dans ma thèse. Il s’est appuyé sur une recherche bibliographique ainsi que sur la comparaison des génotypes 50k disponibles avec les séquences filtrées. Finalement, sur les 97 889 899 SNP et 12 304 043 indels initiaux, nous avons retenu 23 338 436 variants dont 40 491 appartenaient au set de SNP de la puce Illumina GoatSNP50 BeadChip. Une étude préalable de l’imputation depuis la puce 50k vers la séquence a ensuite été menée dans le but d’obtenir un nombre suffisant de séquences imputées de bonne qualité. Plusieurs méthodes d’imputation (imputation populationnelle ou familiale) et plusieurs logiciels ont été testés en utilisant les données de séquence disponibles (829 séquences des différences races caprines internationales). En intra-race, les taux de concordances génotypiques et alléliques ont été estimées à 0,74 et 0,86 en Saanen et 0,76 et 0,87 en Alpine respectivement. Les corrélations étaient alors de 0,26 et 0,24 en Alpine et Saanen respectivement. Les séquences imputées des mâles ont permis la confirmation de QTL précédemment observés sur les génotypes 50k ainsi que la détection de nouvelles régions d’intérêt. L’exhaustivité des données de séquence représentait une opportunité sans précédent d’approfondir une région QTL du chromosome 19 en Saanen qui est associée à la fois à des caractères de production mais aussi à des caractères de morphologie et santé de la mamelle ainsi qu’à des caractères de production de semence. Cette analyse n’a pas abouti à l’identification de mutations candidates. Néanmoins, nous avons pu proposer un moyen simple d’identifier des profils génomiques et phénotypiques particuliers en race Saanen à partir d’un génotype 50k. Cette méthode pourra s’avérer utile en terme de prédiction précoce tant en France qu’à l’international. Enfin, en réunissant l’ensemble des travaux effectués précédemment, nous avons étudié l’impact de l’intégration de données de séquence imputées sur le chromosome 19 sur la précision des évaluations en race Saanen françaises. Plusieurs modèles d’évaluations ont été mis en oeuvre et comparés : single-step GBLUP (ssGBLUP), single-step GBLUP pondéré (WssGBLUP) en utilisant différents panels de variants imputés. Les meilleurs résultats ont été obtenus en utilisant un ssGBLUP incluant les génotypages 50k et les variants imputés de la région du QTL du chromosome 19 (entre 24,72 et 28,38 Mb) avec des gains de +6,2% de précision en moyenne sur les caractères évalués. La mise à jour de la puce caprine à laquelle j’ai participé représente une perspective d’amélioration de la précision des évaluations. Elle permet d’améliorer significativement la qualité des évaluations génomiques (entre 3,1 et 6,4% en fonction du scenario considéré) tout en limitant les temps de calculs liés à l’imputation notamment. Ces travaux confortent l’intérêt de l’utilisation de données de séquence dans les programmes de sélection caprins français et ouvrent la perspective de leur intégration dans la routine des évaluations.

  • Titre traduit

    Using sequence data for fine QTL mapping and genomic evaluation of traits of interest in French dairy goats


  • Résumé

    French dairy goats recently integrated genomics with the development of a DNA chip in the 2010s and the first QTL detections and genomic evaluations. The availability of sequence data for farm animals opens up new opportunities. The VarGoats project is an international 1,000 genomes resequencing program designed to provide sequence information of the Capra hircus species. The study of imputation quality to sequence level is a necessary first step before using imputed sequences in association analysis and genomic evaluations. The main objective of this work was to study the possible integration of sequence data in the French dairy goats breeding programs. The set up of a quality check represented a sizable part of this thesis. It was based on bibliographic research and the comparison between available 50k genotypes and sequence data. Out of the initial 97,889,899 SNPs and 12,304,043 indels, we eventually retained 23,338,436 variants including 40,491 SNPs of the Illumina GoatSNP50 BeadChip. A preliminary study of imputation from 50k genotypes to sequence was then performed with the aim of getting a sufficient number of sequenced animals of good quality. Several softwares and methods were considered (family or population imputation) using the 829 sequenced animals available. Within-breed imputation led to genotype and allele concordance of 0.74 and 0.86 in Saanen and 0.76 and 0.87 in Alpine respectively. Correlations were then of 0.26 and 0.24 in Alpine and Saanen respectively. Imputed sequence of males confirmed signals previously identified using 50k genotypes and allowed the detection of new regions of interest. The density of sequence data represented an unprecedented opportunity to deepen our understanding of QTL region of chromosome 19 in the Saanen breed. This region is associated to production, type and udder health traits as well as semen production traits. Our analysis did not point out any candidate mutation. However, we offer a simple way to identify genomic and phenotypic profiles in the Saanen breed using 50k genotypes. This method could be of use for early prediction in France but also worldwide. Finally, using all previous results, we studied the impact of the integrating imputed sequence data of chromosome 19 on the accuracy of evaluations in French Saanen. Several evaluation models were compared : single-step GBLUP (ssGBLUP) and weighted single-step GBLUP (WssGBLUP) using different panels of imputed variants. Best results were obtained using ssGBLUP with 50k genotypes and all variants on the QTL region of chromosome 19 (between 24.72 and 28.38Mb): +6.2% accuracy on average for all evaluated traits. The 50k chip update to which I participated represents a opportunity to improve genomic evaluations. Indeed, it significantly improved accuracy of predictions (between 3.1 and 6.4% on average depending on the scenario) while limiting computation time associated to imputation. This work confirms the benefits of using sequence data in the French dairy goats breeding programs and opens up the perspective of integrating them in the routine genomic evaluations.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Institut national polytechnique. Service commun de la documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.