Analyse de la diversité microbienne par séquençage massif : méthodes et applications

par Najwa Taïb

Thèse de doctorat en Génétique, Physiologie et Bioinformatique

Sous la direction de Didier Debroas.

Soutenue le 29-08-2013

à Clermont-Ferrand 2 , dans le cadre de École doctorale des sciences de la vie, santé, agronomie, environnement (Clermont-Ferrand) , en partenariat avec Laboratoire Microorganismes : Génome et environnement (équipe de recherche) et de Microorganismes : génome et environnement / LMGE (laboratoire) .

Le président du jury était Jean-François Humbert.

Le jury était composé de Éric Coissac, Thomas Pommier, Engelbert Mephu-Nguifo, Gisèle Bronner.

Les rapporteurs étaient Jean-François Humbert, Éric Coissac.


  • Résumé

    Les avancées des nouvelles techniques de séquençage (NGS) ont permis dans le cadre des études en écologie microbienne de passer de l'analyse de quelques centaines de séquences par étude à des centaines de millions de séquences. Cette différence quantitative des données produites a induit des différences qualitatives quant aux études réalisées. En effet, avec le changement du type de données, les approches classiques d'analyse ne peuvent être appliquées et il est devenu nécessaire de définir de nouvelles stratégies en tenant compte des contraintes que posent ces données. Alors qu'il était possible d'insérer classiquement quelques dizaines de séquences issues des techniques de première génération dans des phylogénies expertisées, le nombre de séquences généré aujourd'hui par les NGS à chaque expérience rend cette tâche irréalisable et nécessite la mise en place de nouvelles stratégies et l'utilisation d'outils adaptés. Par ailleurs, les outils disponibles d'analyse de la diversité microbienne adaptés aux amplicons de nouvelle génération, implémentent des approches probabilistes et/ou de recherche de similitude pour l'identification des séquences environnementales. L'approche phylogénétique quant à elle, bien qu'elle soit la plus robuste, n'est pas utilisée pour l'annotation taxonomique de ce type de données du fait de ses besoins en temps et en ressources de calcul. Au-delà de l'approche d'annotation taxonomique, les nouvelles techniques de séquençage posent également le problème de la qualité des séquences produites et son impact sur l'estimation de la diversité. Ainsi, ce travail de thèse avait pour objectif la définition d'une stratégie d'analyse bioinformatique de données de séquençage massif dans le contexte de l'étude de la diversité microbienne, en tenant compte des limitations imposées par les ressources informatiques actuelles (matérielles et logicielles) d'un côté, et de l'avantage des méthodes phylogénétiques par rapport aux autres approches d'annotation taxonomique. Ce travail a donné lieu au développement d'une chaîne de traitement proposant une série d'analyses allant des séquences brutes jusqu'à la visualisation des résultats, tout en replaçant les séquences environnementales dans un contexte évolutif. L'approche développée a été optimisée pour la gestion de gros volumes de données, et a été comparée en terme de précision d'affiliation aux autres approches communément utilisées en écologie microbienne. Les tests et simulations ont montré qu'à partir d'une taille d'amplicons de 400 pb, l'affiliation phylogénétique avait les meilleurs résultats mais aussi, que la qualité de cette affiliation différait selon la région hypervariable ciblée. La chaîne de traitements mise en place a ensuite été par implémentée dans un contexte de calcul à haute performance, notamment sur un cluster de calcul, pour proposer un service web dédié à l'analyse de la diversité microbienne.

  • Titre traduit

    No title available


  • Résumé

    The characterization of microbial community structure via SSU rRNA gene profiling has been greatly advanced in recent years by the introduction of NGS amplicons, leading to a better representation of sample diversity at a lower cost. This progress in method development has provided a new window into the composition of microbial communities and sparked interest in the members of the rare biosphere. Concurrently, the processing of such amount of data has become an important bottleneck for the effectiveness of microbial ecology studies, and a multitude of analysis platforms have been developed for the handling of these data. As implemented, these tools have a steep learning curve for the biologist who is not computationally inclined, as they require extensive user intervention and consume many CPU hours due to dataset analysis and complexity, which can present a significant barrier to researchers. Moreover, although phylogenetic affiliation has been shown to be more accurate for the taxonomic assignment of NGS reads, the existing tools assign taxonomy by either a similarity search or a probabilistic approach, with the phylogenies being restricted to samples' comparison. Beyond the taxonomic assignment, the new sequencing technologies also arise the problem of the quality of the generated sequences and its impact on the richness estimation. In this work, we aimed to define a strategy for the bioinformatic analysis of high-throughput sequences in order to depict the microbial diversity, taking into account both the limitations imposed by current computer resources (hardware and software), and the advantage of the phylogenetic methods over the other taxonomic annotation approaches. This work has led to the development of a pipeline offering a set of analyzes ranging from raw sequences processing to the visualization of the results, while replacing the environmental sequences in an evolutionary framework. The developed approach was optimized for managing large volumes of data, and has been compared in term of the accuracy of taxonomic assignment to the approaches commonly used in the field of microbial ecology. This pipeline was then used to the developement of a dedicated web server for high-throughput sequencing analysis, that relies on a computing cluster and performs large-scale phylogeny-based analyses of rRNA genes with no need for specialized informatics expertise, and uses the phylogenies for both the taxonomy assessment and the delineation of monophyletic groups to highlight clades of interest.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université Clermont Auvergne. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.