Thèse soutenue

Identification des variations du nombre de copies dans les données d'exome : applications à l'infertilité

FR  |  
EN
Auteur / Autrice : Amandine Septier
Direction : Nicolas Thierry-Mieg
Type : Thèse de doctorat
Discipline(s) : Modèles, méthodes et algorithmes en biologie, santé et environnement
Date : Soutenance le 23/09/2024
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale ingénierie pour la santé, la cognition, l'environnement (Grenoble ; 1995-....)
Partenaire(s) de recherche : Laboratoire : Recherche translationnelle et innovation en médecine et complexité (La Tronche, Isère, France ; 1995-....)
Equipe de recherche : Equipe de recherche Biologie computationnelle et modélisation (La Tronche, Isère ; 2021-....)
Jury : Président / Présidente : Olivier François
Examinateurs / Examinatrices : Macha Nikolski, Matthieu Foll
Rapporteurs / Rapporteuses : Antonio Rausell, Christel Thauvin-Robinet

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Dans le cadre de la génomique humaine, les variations du nombre de copies (CNV) représentent une forme importante de variation structurelle du génome, pouvant entraîner la perte (délétion) ou le gain(duplication) de matériel génétique dans certains segments. Ces variations jouent un rôle crucial dans diverses pathologies, impactant significativement la fonction des gènes, notamment dans les cas dedélétions, et conduisant à des effets phénotypiques variés.Le séquençage de l'exome entier (WES), ciblant sélectivement les régions exoniques du génome, est un outil clé pour l'identification de variations génétiques cliniquement pertinentes. Il est particulièrementefficace pour détecter les variations d'un seul nucléotide (SNV) et les petites insertions/délétions (indels). Cependant, il peut également être utilisé pour identifier les CNV, en particulier lorsque plusieurséchantillons obtenus par des technologies WES homogènes sont disponibles. Plusieurs méthodes ont été proposées pour détecter les CNV à partir de données WES. Typiquement, ces méthodes comparent le nombre de lectures de séquençage pour chaque exon à travers divers échantillons WES, identifiant des valeurs atypiques qui correspondent probablement à des délétions (réduction des lectures) ou des duplications (excès de lectures). Toutefois, les approches existantes souffrent souvent de faibles taux de concordance et de validation, comme le démontrent des évaluations indépendantes.Cette thèse propose une nouvelle méthode pour l'identification fiable des CNV à partir de données WES, comprenant quatre étapes méthodologiques innovantes :1. Filtrage et comptage des lectures : cette étape utilise une analyse approfondie des alignements de séquençage en paires, distinguant les lectures véritablement associées aux CNV des autres alignements(tels que ceux résultant d'autres types de variants structurels) ou des artefacts de séquençage et d'alignement. L'accent est mis sur la précision et l'exhaustivité, tout en optimisant l'efficacité computationnelle, car c'est la phase la plus couteuse en temps.2. Identification de sous-groupes homogènes d'échantillons : un algorithme novateur est introduit pour stratifier les échantillons en fonction des comptages de lectures par exon. Cette méthode vise à regrouper les échantillons présentant des caractéristiques de séquençage similaires, améliorant ainsi la détection précise des CNV et réduisant les faux positifs.3. Modélisation des comptages de lectures : cette étape implique l'application d'une modélisation statistique au niveau de chaque exon, pour prendre en compte la variabilité et la complexité des données de séquençage. Notre approche repose sur l'analyse fine de centaines d'exomes, aboutissant à une méthodologie à la fois robuste et exhaustive.4. Modélisation intégrative des CNV : Les modèles statistiques développés dans la troisième étape sont ensuite utilisés pour définir les paramètres d'un modèle de Markov caché (HMM) continu. Ce modèleintégratif multi-exons capture avec précision les nuances des données WES et permet des appels de CNV solidement appuyés sur une vraisemblance statistique clairement définie.Ces étapes constituent ensemble une approche cohérente et innovante pour la détection des CNV à partir de données WES. Notre méthode représente un progrès significatif dans l'interprétation des données WES pour la génomique clinique, avec un impact potentiel important pour le diagnostic et le traitement des troubles génétiques. Significativement, même avant la finalisation de notre approche, les résultatspréliminaires ont contribué à l'identification de plusieurs CNV impliqués dans l'infertilité, comme le démontrent les travaux de Celse et al. (Hum Genet 2021), Kherraf et al. (Am J Hum Genet 2022), et Dacheaux et al. (Elife. 2023). Ces découvertes soulignent le potentiel et la pertinence de nos méthodes pour approfondir la compréhension des conditions génétiques complexes.