Assemblage de novo de répétitions à partir de données NGS

par Andreea Radulescu

Thèse de doctorat en Informatique et applications

Sous la direction de Irena Rusu.


  • Résumé

    Le développement des méthodes de séquençage de nouvelle génération a permis la production de grandes quantités de données à moindre coût. Cependant, les fragments obtenus, appelés reads, possèdent des longueurs plus courtes et des taux d’erreurs plus élevés que ceux obtenus avec les premières méthodes de séquençage. Cela a créé de nouveaux défis pour l’assemblage de génomes. Même si de nombreux assembleurs sont publiés chaque année et que les algorithmes sont de plus en plus élaborés, la reconstruction d’un génome entier de novo, en l’absence de génome de référence, reste un problème difficile. Une des principales causes est la présence des répétitions dans les génomes. Cette thèse décrit des algorithmes visant à améliorer l’assemblage de novo de répétitions. Nous présentons d’abord nos solutions axées sur les répétitions en tandem. L’algorithme appelé DExTaR a été conçu pour améliorer la détection de répétitions en tandem exactes suite à un assemblage de novo global basé sur l’approche de de Bruijn. Le second algorithme, appelé MixTaR, effectue seulement des assemblages locaux afin de détecter des répétitions en tandem exactes et approximatives. En utilisant deux types de reads, courts et longs, MixTaR ne requiert pas un assemblage global préalable. Nous roposons ensuite plusieurs algorithmes pour simplifier le problème d’assemblage basé sur une nouvelle structure de données, le graphe de de Bruijn pairé. Ce graphe inclut les informations des reads pairés dès le début du processus d’assemblage afin d’améliorer la détection de répétitions et la qualité de l’assemblage

  • Titre traduit

    De novo repeat assembly from NGS data


  • Résumé

    The development of the next-generation sequencing methods has allowed the generation of vast amounts of data at a lower cost and time. However, the fragments obtained, called reads, have shorter lengths and higher error rates that the ones obtained with the first sequencing methods. This new type of data created new challenges in genome assembly. Even though many assembly software are published every year and algorithms are becoming more and more complex, reconstructing a whole genome de novo, in the absence of a reference genome, remains a difficult problem. One of the main causes is represented by the presence of repetitive regions in the genomes. This thesis describes algorithms designed to improve the de novo assembly of repeats. We first present our solutions focused on tandem repeats. The algorithm called DExTaR aims at extending the work done by a de novo assembly in the detection of exact tandem repeats. Based on a de Bruijn graph constructed by an assembler, our approach assembles new exact tandem repeats by analysing the parts of the graph left unresolved. The second algorithm, called MixTaR, performs only local assemblies in order to detect exact and approximate tandem repeats. Using the two types of reads obtained by the new sequencing methods, short and long reads, MixTaR does not require a global de novo assembly. We then propose several algorithms for simplifying the assembly problem based on a new data structure, the paired de Bruijn graph. This graph uses the paired-end information from the beginning of the assembly process as a solution to a better repeat detection and higher quality results

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (148 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. 133 réf.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Nantes. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.