Thèse soutenue

Approximation de superchaîne, indexation et assemblage de génome

FR  |  
EN
Auteur / Autrice : Bastien Cazaux
Direction : Éric Rivals
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 07/12/2016
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, de robotique et de micro-électronique (Montpellier ; 1992-....)
Jury : Président / Présidente : Christophe Paul
Examinateurs / Examinatrices : Éric Rivals, Christophe Paul, Irena Rusu, Maxime Crochemore, Guillaume Blin
Rapporteurs / Rapporteuses : Irena Rusu, Maxime Crochemore

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Actuellement, les technologies de séquençage ne permettent de lire la séquence d'un génome entier d'un individu, mais donnent les séquences de portions courtes de ce génome avec des erreurs. On doit ensuite procéder à un assemblage de ces séquences (que l'on appelle lectures ou "read" en anglais) pour retrouver la séquence du génome complet. Une version théorique de cette problématique est le problème de la plus courte superchaîne: étant donné un ensemble de mots (notre ensemble de lectures), on cherche à trouver le plus petit mot qui contient tous les autres comme sous-chaîne (le génome d'origine). Ce problème étudié depuis les années 60 est notoirement difficile à résoudre de manière exacte et approchée.L'assemblage nécessite certains pré-traitements des lectures, comme par exemple la correction des erreurs dues au séquençage dans les lectures (au sens où on cherche à enlever les erreurs). Certains logiciels de correction (ou d'autres pré-traitements) utilisent une structure d'indexation des séquences pour repérer les erreurs. Or, après la correction, cette structure de données est perdue et l'assemblage n'utilise plus que les lectures corrigées. Dans cette thèse, on se demande comment utiliser les structures d'indexation pour faciliter ou améliorer la qualité de l'assemblage.Dans un premier temps, on a montré qu'à partir d'une structure d'indexation, on pouvait rapidement reconstruire les graphes utilisés dans les algorithmes d'assemblage (graphe de Bruijn, graphe de Bruijn contracté, graphe de chevauchements). De plus, on a mis en évidence un nouveau graphe, le graphe hiérarchique de chevauchements ou "Hierarchical Overlap Graph", qui résume les informations des graphes classiques de l'assemblage.Dans un deuxième temps, on s'est demandé comment une structure d'indexation pouvait aider à résoudre directement le problème théorique de la plus courte superchaîne. Pour cela, on a étudié les solutions que l'algorithme glouton donnait à ce problème (leur approximation, leur combinatoire, ...) et à plusieurs de ces variantes (cas des mots renversés et complémentaires, cas de superchaîne cyclique, cas de couverture par un ensemble de superchaînes). Ceci a permis de résoudre plusieurs questions concernant la complexité et l'approximabilité de ces problèmes. En particulier, l'algorithme glouton permet de résoudre en temps linéaire la question de la plus petite couverture par des chaînes cycliques. Même si l'algorithme glouton est le plus simple et un des plus étudiés pour ces problèmes, il n'en reste pas moins un mystère. Notre étude a permis de mettre en évidence un nouveau graphe, le graphe des superchaînes ou "Superstring Graph", qui correspond à un plongement des solutions de l'algorithme glouton dans la structure d'indexation qu'est l'arbre des suffixes. Autrement dit, le graphe des superchaînes synthétise l'ensemble des solutions gloutonnes dans un espace linéaire.Enfin, on s'est intéressé aux algorithmes des meilleurs assembleurs utilisés en pratique (IDBA, SPAdes) qui ont permis d'améliorer l'assemblage de lectures courtes en utilisant plusieurs graphes d'assemblage. Nous avons montré tout d'abord que le graphe des superchaînes permet de stocker plus d'informations que ces assembleurs et avec une complexité en espace bien plus faible. Ensuite, il ressort que l'algorithme glouton pour une variante du problème de plus courte superchaîne donne des séquences qui incluent les contigs trouvés pour ces algorithmes. Ces résultats permettent de lier l'assemblage pratique et les problèmes de superchaînes, et donnent un cadre théorique fort pour étudier ces algorithmes heuristiques.