Thèse soutenue

Utiliser la nature systématique des erreurs dans les données NGS pour détecter efficacement les mutations : méthodes de calcul et application à la détection précoce du cancer

FR  |  
EN
Auteur / Autrice : Tiffany Delhomme
Direction : James McKayMatthieu Foll
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 01/07/2019
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École doctorale de Biologie Moléculaire Intégrative et Cellulaire (Lyon)
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
Laboratoire : Centre international de recherche sur le cancer
Jury : Président / Présidente : Delphine Maucort-Boulch
Examinateurs / Examinatrices : James McKay, Matthieu Foll, Michaël Blum
Rapporteurs / Rapporteuses : Macha Nikolski, Nicolas Thierry-Mieg

Résumé

FR  |  
EN

La caractérisation exaustive des variations de l'ADN peut aider à progresser dans de nombreux champs liés à la génomique du cancer. Le séquençage nouvelle génération (NGS en anglais pour Next Generation Sequencing) est actuellement la technique la plus efficace pour déterminer une séquence ADN, du aux faibles coûts et durées des expériences comparé à la méthode de séquençage traditionnelle de Sanger. Cependant, la détection de mutations à partir de données NGS reste encore un problème difficile, en particulier pour les mutations somatiques présentes en très faible abondance comme lorsque l'on essaye d'identifier des mutations sous-clonales d'une tumeur, des mutations dérivées de la tumeur dans l'ADN circulant libre, ou des mutations somatiques dans des tissus normaux. La difficulté principale est de précisement distinguer les vraies mutations des artefacts de séquençage du au fait qu'ils atteignent des niveaux similaires. Dans cette thèse nous avons étudié la nature systématique des erreurs dans les données NGS afin de proposer des méthodologies efficaces capables d'identifier des mutations potentiellement en faible abondance. Dans un premier chapitre, nous decrivons needlestack, un nouvel outil d'appel de variants basé sur la modélisation des erreurs systématiques sur plusieurs échantillons pour extraire des mutations candidates. Dans un deuxième chapitre, nous proposons deux méthodes de filtrage des variants basées sur des résumés statistiques et sur de l'apprentissage automatique, dans le but de d'améliorer la précision de la détection des mutations par l'identification des erreurs non-systématiques. Finalement, dans un dernier chapitre nous appliquons ces approches pour développer des biomarqueurs de détection précoce du cancer en utilisant l'ADN circulant tumoral