Thèse soutenue

Intégration d’annotations fonctionnelles dans des modèles de prédiction génomique bayésiens

FR  |  
EN
Auteur / Autrice : Fanny Mollandin
Direction : Andrea RauPascal Croiseau
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 28/09/2022
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Agriculture, alimentation, biologie, environnement, santé (Paris ; 2015-....)
Partenaire(s) de recherche : référent : AgroParisTech (France ; 2007-....)
graduate school : Université Paris-Saclay. Graduate School Biosphera (2020-....)
Laboratoire : Génétique animale et biologie intégrative (Jouy-en-Josas,Yvelines ; 2009-....)
Jury : Président / Présidente : Xavier Rognon
Examinateurs / Examinatrices : Emmanuelle Génin, Andrés Legarra, Sophie Allais, Étienne Birmelé
Rapporteurs / Rapporteuses : Emmanuelle Génin, Andrés Legarra

Résumé

FR  |  
EN

La disponibilité généralisée et la baisse des coûts des technologies de génotypage à haut débit et de séquençage génomique ont ouvert la voie à des méthodes d'évaluation génomique, qui ont accéléré la mise en œuvre de l'évaluation génomique dans l'élevage pour de nombreuses espèces. Les méthodes d'évaluation génomique partagent un objectif commun, à savoir estimer avec précision un phénotype ou une valeur d'élevage estimée à partir des effets d'un ensemble de polymorphismes nucléotidiques (single nucleotide polymorphisms ; SNP), c’est-à-dire de variations d’un nucléotide sur le génome. Les modèles de prédiction bayésiens ont rapidement été adoptés, capable d’évaluer simultanément les effets des SNPs, tout en étant flexibles. Ils ont aussi l’avantage de pouvoir incorporer des informations sur la distribution des SNPs par leur loi a priori.Une piste d'amélioration potentielle de ces modèles réside dans la hiérarchisation des SNPs potentiellement causaux. À cette fin, plusieurs actions et projets internationaux, dont le projet européen GENE-SWitCH, ont récemment commencé à concentrer des efforts importants pour mieux caractériser les processus fonctionnels intermédiaires reliant les génotypes aux phénotypes quantitatifs. En particulier, l'objectif est de compléter les données de génotypage par des données d'annotation fonctionnelle, telles que le niveau de méthylation ou l'accessibilité de la chromatine dans plusieurs tissus et à des stades de développement pertinents, afin de mieux identifier les SNP causaux. Un défi majeur dans l'exploitation de ces données fonctionnelles réside dans la gestion de leur hétérogénéité et de leur complexité.Dans ce projet de thèse, l’objectif est de développer et de valider des modèles bayésiens de prédiction génomique capables de pondérer les SNPs en fonction des informations extraites de ces annotations fonctionnelles. Nous visons à la fois une meilleure capacité prédictive et une meilleure interprétabilité des résultats. Dans ce but, nous avons étendu le modèle BayesRC, dans lesquelles les signaux des SNPs sont partitionnés en fonction d’une catégorisation disjointe, pour pouvoir utiliser des données d’annotations hétérogènes et chevauchantes. Nous proposons deux nouveaux modèles, BayesRCπ et BayesRC+, respectivement reposant sur une modélisation stochastique ou cumulative des annotations multiples, afin de prendre en considération les SNPs multi-annotés. Ces modèles ont été appliqués à des données simulées et réelles, et plusieurs façons de construire et d’interpréter les annotations ont été proposés.