Nouvelles techniques informatiques pour la localisation et la classification de données de séquençage haut débit
Auteur / Autrice : | Karel Brinda |
Direction : | Gregory Kucherov, Valentina Boeva |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 28/11/2016 |
Etablissement(s) : | Paris Est |
Ecole(s) doctorale(s) : | École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2010-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Institut Gaspard Monge (1997-2009) - Laboratoire d'Informatique Gaspard-Monge / LIGM |
Jury : | Président / Présidente : Dominique Lavenier |
Examinateurs / Examinatrices : Guillaume Blin, Paola Bonizzoni, Denis Mestivier | |
Rapporteur / Rapporteuse : Veli Mäkinen, Sven Rahmann |
Mots clés
Résumé
Depuis leur émergence autour de 2006, les technologies de séquençage haut débit ont révolutionné la recherche biologique et médicale. Obtenir instantanément une grande quantité de courtes ou longues lectures de presque tout échantillon biologique permet de détecter des variantes génomiques, révéler la composition en espèces d’un métagénome, déchiffrer la biologie du cancer, décoder l'évolution d’espèces vivantes ou disparues, ou mieux comprendre les schémas de la migration humaine et l'histoire humaine en général. La vitesse à laquelle augmente le débit des technologies de séquençage dépasse la croissance des capacités de calcul et de stockage, ce qui crée de nouveaux défis informatiques dans le traitement de données de séquençage haut débit. Dans cette thèse, nous présentons de nouvelles techniques informatiques pour la localisation (mapping) de lectures dans un génome de référence et pour la classification taxonomique. Avec plus d'une centaine d’outils de localisation publiés, ce problème peut être considéré comme entièrement résolu. Cependant, une grande majorité de programmes suivent le même paradigme et trop peu d'attention a été accordée à des approches non-standards. Ici, nous introduisons la localisation dynamique dont nous montrons qu’elle améliore significativement les alignements obtenus, par comparaison avec les approches traditionnelles. La localisation dynamique est basée sur l'exploitation de l'information fournie par les alignements calculés précédemment, afin d’améliorer les alignements des lectures suivantes. Nous faisons une première étude systématique de cette approche et démontrons ses qualités à l'aide de Dynamic Mapping Simulator, une pipeline pour comparer les différents scénarios de la localisation dynamique avec la localisation statique et le “référencement itératif”. Une composante importante de la localisation dynamique est un calculateur du consensus online, c’est-à-dire un programme qui collecte des statistiques des alignements pour guider, à la volée, les mises à jour de la référence. Nous présentons OCOCO, calculateur du consensus online qui maintient des statistiques des positions génomiques individuelles à l’aide de compteurs de bits compacts. Au-delà de son application à la localisation dynamique, OCOCO peut être utilisé comme un calculateur de SNP online dans divers pipelines d'analyse, ce qui permet de prédire des SNP à partir d'un flux sans avoir à enregistrer les alignements sur disque. Classification métagénomique de lectures d’ADN est un autre problème majeur étudié dans la thèse. Etant donné des milliers de génomes de référence placés sur un arbre taxonomique, le problème consiste à affecter rapidement aux nœuds de l'arbre une énorme quantité de lectures NGS, et éventuellement estimer l'abondance relative des espèces concernées. Dans cette thèse, nous proposons des techniques améliorées pour cette tâche. Dans une série d'expériences, nous montrons que les graines espacées améliorent la précision de la classification. Nous présentons Seed-Kraken, extension sur les graines espacées du logiciel populaire Kraken. En outre, nous introduisons une nouvelle stratégie d'indexation basée sur le transformé de Burrows-Wheeler (BWT), qui donne lieu à un indice beaucoup plus compact et plus informatif par rapport à Kraken. Nous présentons une version modifiée du logiciel BWA qui améliore l’index BWT pour la localisation rapide de k-mers