Thèse soutenue

Caractérisation des erreurs de séquençage non aléatoires : application aux mosaïques et tumeurs hétérogènes

FR  |  
EN
Auteur / Autrice : Chadi Saad
Direction : Marie-Pierre BuisineHélène Touzet
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 26/09/2018
Etablissement(s) : Université de Lille (2018-2021)
Ecole(s) doctorale(s) : École graduée Biologie-Santé (Lille ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche Jean-Pierre AUBERT Neurosciences et Cancer (Lille) - Centre de Recherche en Informatique, Signal et Automatique de Lille - Centre de Recherche Jean-Pierre AUBERT Neurosciences et Cancer

Résumé

FR  |  
EN

L'arrivée des technologies de séquençage d’ADN à haut-débit a représenté une révolution dans le domaine de la génomique personnalisée, en raison de leur résolution et leur faible coût. Toutefois, ces nouvelles technologies présentent un taux d’erreur élevé, qui varie entre 0,1% et 1% pour les séquenceurs de seconde génération. Cette valeur est problématique dans le cadre de la recherche de variants de faible ratio allélique, comme ce qui est observé dans le cas des tumeurs hétérogènes. En effet, un tel taux d’erreur peut mener à des milliers de faux positifs. Chaque région de l’ADN étudié doit donc être séquencée plusieurs fois, et les variants sont alors filtrés en fonction de critères basés sur leur profondeur. Malgré ces filtres, le nombre d’artefacts reste important, montrant la limite des approches conventionnelles et indiquant que certains artefacts de séquençage ne sont pas aléatoires.Dans le cadre de cette thèse, nous avons développé un algorithme exact de recherche des motifs d’ADN dégénérés sur-représentés en amont des erreurs de séquençage non aléatoires et donc potentiellement liés à leur apparition. Cet algorithme a été mis en oeuvre dans un logiciel appelé DiNAMO, qui a été testé sur des données de séquençage issues des technologies IonTorrent et Illumina.Les résultats expérimentaux ont mis en évidence plusieurs motifs, spécifiques à chacune de ces deux technologies. Nous avons ensuite montré que la prise en compte de ces motifs dans l’analyse, réduisait considérablement le taux de faux positifs. DiNAMO peut donc être utilisé en aval de chaque analyse, comme un filtre supplémentaire permettant d’améliorer l’identification des variants, en particulier des variants à faible ratio allélique.