Thèse soutenue

Développement de méthodes de priorisation de gènes pour les maladies génétiques rares grâce à un test paramétrique de statistique génétique et à l'annotation clinique

FR  |  
EN
Auteur / Autrice : Antoine Favier
Direction : Antonio Rausell
Type : Thèse de doctorat
Discipline(s) : Génétique, omiques, bioinformatique et biologie des systèmes
Date : Soutenance le 15/12/2022
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Frontières de l'innovation en recherche et éducation (Paris ; 2006-....)
Partenaire(s) de recherche : Laboratoire : Institut des Maladies Génétiques (Paris)
Jury : Président / Présidente : David-Alexandre Trégouët
Examinateurs / Examinatrices : Antonio Rausell, David-Alexandre Trégouët, Emmanuelle Génin, Juan Antonio Garcia-Ranea, Aurélie Cobat
Rapporteurs / Rapporteuses : Emmanuelle Génin, Juan Antonio Garcia-Ranea

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

À ce jour, près de 70% des patients atteints de maladies mendéliennes demeurent sans diagnostic après séquençage de leur ADN. Il est nécessaire d'étudier les causes génétiques de ces maladies à l'aide des nouveaux outils génomiques et bio-informatiques pour mettre en place de potentielles stratégies thérapeutiques. Les nouvelles méthodes de séquençage d'exome et de génome ont grandement amélioré la précision des études cliniques sur les maladies rares. La médecine de précision et la génomique ont permis une meilleure compréhension du génome humain et en particulier des variants génétiques associés un grand nombre de maladies rares et communes. Cependant, le diagnostic et l'élaboration de stratégie thérapeutiques demeurent extrêmement compliqués du fait de l'hétérogénéité clinique et génétique, des défis statistiques associés et de la complexité de l'architecture génétique des maladies. L'ensemble des mécanismes génétiques et des artéfacts techniques peuvent brouiller le signal statistique, rendant le diagnostic et la recherche de médicament très compliqués. Les méthodes de priorisation de gène sont une solution pour simplifier ce problème. Une première stratégie consiste à agréger plusieurs variants d'intérêt dans une cohorte de patients et d'évaluer l'importance de leur accumulation grâce à une variable unique de type "burden" au sein d'une région spécifique par rapport à une cohorte contrôle plutôt que de tester chaque variant individuellement. Néanmoins, les individus contrôle sont rarement séquencés conjointement aux patients et cela peut conduire à des biais d'analyse. Pour contrer cet effet, j'ai développé une stratégie de test statistique de type "burden" sans contrôle en utilisant les données publiques de Genome Aggregation Database (gnomAD) comme paramètre. L'hypothèse de ma stratégie a été testée sur les données du projet 1000 Génomes et appliquées dans le cadre clinique d'une cohorte de patients souffrant de ciliopathies. La seconde stratégie est d'utiliser les données cliniques renseignées par les médecins dans les dossiers médicaux pour prioriser les gènes et gagner en puissance statistique lors de l'association au génotype. Des analyses guidées par le phénotype grâce à la nomenclature HPO pour définir de nouveaux diagnostics dans les maladies du développement ont déjà été menées et ont montré leur efficacité. J'ai travaillé sur la fiabilité des termes HPO pour construire des groupes de patients cliniquement similaires grâce à la similarité sémantique afin de prioriser les variants génétiques grâce aux exomes du projet Deciphering Developmental Disorders (DDD). J'ai montré que les termes HPO utilisés pour grouper des patients souffrant de des maladies hétérogènes telles que les maladies du développement sont aujourd'hui trop peu fiables à elles seules pour prioriser les variants exoniques et qu'une stratégie de type "burden" peut fonctionner dans un cadre clinique et identifier des variants causaux sans a priori dans une cohorte hétérogène. Mon travail sur la priorisation de variants guidée par la similarité clinique pourra servir à la communauté scientifique pour améliorer les méthodes existantes et la précision de l'ontologie. Le test de type "burden" sans contrôle appariés sera déployé comme software open-source et utilisable par la communauté scientifique.