Thèse soutenue

Algorithmes pour la reconstruction de séquences de marqueurs conservés dans des données de métagénomique

FR  |  
EN
Auteur / Autrice : Pierre Pericard
Direction : Hélène TouzetSamuel Blanquart
Type : Thèse de doctorat
Discipline(s) : Informatique, automatique
Date : Soutenance le 27/10/2017
Etablissement(s) : Lille 1
Ecole(s) doctorale(s) : École doctorale Sciences pour l'ingénieur (Lille)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille

Résumé

FR  |  
EN

Les progrès récents en termes de séquençage d’ADN permettent maintenant d’accéder au matériel génétique de communautés microbiennes extraites directement d’échantillons environnementaux naturels. Ce nouveau domaine de recherche, appelé métagénomique, a de nombreuses applications en santé, en agro-alimentaire, en écologie, par exemple. Analyser de tels échantillons demande toutefois de développer de nouvelles méthodes bio-informatiques pour déterminer la composition taxonomique de la communauté étudiée. L’identification précise des organismes présents est en effet une étape essentielle à la compréhension des écosystèmes même les plus simples. Cependant, les technologies de séquençage actuelles produisent des fragments d’ADN courts et bruités, qui ne couvrent que partiellement les séquences complètes des gènes, ce qui pose un véritable défi pour l’analyse taxonomique à haute résolution. Nous avons développé MATAM, une nouvelle méthode bio-informatique dédiée à la reconstruction rapide et sans erreurs de séquences complètes de marqueurs phylogénétiques conservés, à partir de données brutes de séquençage. Cette méthode est composée d’une succession d’étapes qui réalisent la construction et l’analyse d’un graphe de chevauchement de lectures. Nous l’avons appliquée à l’assemblage de la petite sous-unité de l’ARN ribosomique sur des métagénomes simulés, synthétiques et réels. Les résultats obtenus sont de très bonne qualité et améliorent l’état de l’art.