Thèse soutenue

Évaluation informatique de variations génétiques non-codantes avec potentiel impact clinique chez l'humain

FR  |  
EN
Auteur / Autrice : Barthélémy Caron
Direction : Antonio Rausell
Type : Thèse de doctorat
Discipline(s) : Génétique
Date : Soutenance le 15/12/2020
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Bio Sorbonne Paris Cité (Paris ; 2014-....)
Partenaire(s) de recherche : Laboratoire : Institut des Maladies Génétiques (Paris)
Jury : Président / Présidente : Richard Redon
Examinateurs / Examinatrices : Richard Redon, Tom Lenaerts, Chloé-Agathe Azencott
Rapporteurs / Rapporteuses : Tom Lenaerts, Chloé-Agathe Azencott

Résumé

FR  |  
EN

Le but de cette thèse est de comprendre le potentiel pathogène des variations génétiques non-codantes de la lignée germinale chez l'Humain. Le projet est composé de deux parties principales : i) l'étude de l'impact des variants rares dans les maladies mendeléiennes et ii) l'étude du rôle des variants communs et des facteurs non-génétiques dans l'expression des protéines plasmatiques liées à l'immunité. Dans la première partie, nous avons développé d'une méthode de prédiction de la pathogénicité des variants rares localisés dans les régions non-codantes dans le cadre des maladies génétiques rares humaines. Cette méthode repose sur l'observation du niveau de conservation génétique chez les vertébrés, mammifères et en particulier chez les primates et les humains. Un travail de vérification manuel des bases de données de variants génétiques rares a été réalisé afin de construire un jeu de donnée de haute qualité, permettant l'entraînement d'une méthode de machine learning, basée sur le tree boosting, spécifique au maladies génétiques rares. Cette méthode à été testée avec succès sur plusieurs jeux de données indépendants correspondants à plusieurs scénarii. Ce travail à permis de mettre en évidence l'importance de la qualité des jeux de données d'entraînement et de la prise en compte de plusieurs biais de constitution des bases de données pour améliorer la fiabilité des prédictions de variants génétiques dans le cadre de l'étude des maladies génétiques rares. De plus, cette méthode présente des performances robustes et plus fiables que les méthodes considérées par analyse comparative. Dans la deuxième partie, nous avons réalisé une étude de l'influence de variants communs dans la modulation du niveau plasmatique de protéines sériques liées à l'immunité chez des individus sains. Ce travail utilise une approche multivariable guidée par les données, et a permis d'identifier de nouvelles allèles associées à des niveaux d'expressions protéiques (pQTLs) ou de répliquer de tels loci deja identifiés. Certains de ces nouveaux pQTLs sont associés à l'expression de protéines impliquées dans des des maladies génétiques rares telles que des immuno-déficiences primaires, et pourraient agir comme modulateurs de ces maladies. De plus, ce travail permet de souligner l'importance de la prise en compte de variables d'ajustement spécifiques aux protéines étudiées, telles que les différentes populations de cellules sanguines, afin d'identifier de potentiels mécanismes médiant l'effet du génotype sur le phénotype observé. Dans l'ensemble, cette thèse contribue à l'identification de loci génétiques potentiellement régulateurs dont la mutation peut générer des phénotypes cliniques.