Utiliser la nature systématique des erreurs dans les données NGS pour détecter efficacement les mutations : méthodes de calcul et application à la détection précoce du cancer
Auteur / Autrice : | Tiffany Delhomme |
Direction : | James McKay, Matthieu Foll |
Type : | Thèse de doctorat |
Discipline(s) : | Bioinformatique |
Date : | Soutenance le 01/07/2019 |
Etablissement(s) : | Lyon |
Ecole(s) doctorale(s) : | École doctorale de Biologie Moléculaire Intégrative et Cellulaire (Lyon) |
Partenaire(s) de recherche : | établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....) |
Laboratoire : Centre international de recherche sur le cancer | |
Jury : | Président / Présidente : Delphine Maucort-Boulch |
Examinateurs / Examinatrices : James McKay, Matthieu Foll, Michaël Blum | |
Rapporteurs / Rapporteuses : Macha Nikolski, Nicolas Thierry-Mieg |
Mots clés
Résumé
La caractérisation exaustive des variations de l'ADN peut aider à progresser dans de nombreux champs liés à la génomique du cancer. Le séquençage nouvelle génération (NGS en anglais pour Next Generation Sequencing) est actuellement la technique la plus efficace pour déterminer une séquence ADN, du aux faibles coûts et durées des expériences comparé à la méthode de séquençage traditionnelle de Sanger. Cependant, la détection de mutations à partir de données NGS reste encore un problème difficile, en particulier pour les mutations somatiques présentes en très faible abondance comme lorsque l'on essaye d'identifier des mutations sous-clonales d'une tumeur, des mutations dérivées de la tumeur dans l'ADN circulant libre, ou des mutations somatiques dans des tissus normaux. La difficulté principale est de précisement distinguer les vraies mutations des artefacts de séquençage du au fait qu'ils atteignent des niveaux similaires. Dans cette thèse nous avons étudié la nature systématique des erreurs dans les données NGS afin de proposer des méthodologies efficaces capables d'identifier des mutations potentiellement en faible abondance. Dans un premier chapitre, nous decrivons needlestack, un nouvel outil d'appel de variants basé sur la modélisation des erreurs systématiques sur plusieurs échantillons pour extraire des mutations candidates. Dans un deuxième chapitre, nous proposons deux méthodes de filtrage des variants basées sur des résumés statistiques et sur de l'apprentissage automatique, dans le but de d'améliorer la précision de la détection des mutations par l'identification des erreurs non-systématiques. Finalement, dans un dernier chapitre nous appliquons ces approches pour développer des biomarqueurs de détection précoce du cancer en utilisant l'ADN circulant tumoral