Thèse soutenue

Développements méthodologiques autour de l'analyse des données de metabarcoding ADN

FR  |  
EN
Auteur / Autrice : Celine Mercier
Direction : Éric Coissac
Type : Thèse de doctorat
Discipline(s) : Biodiversité écologie environnement
Date : Soutenance le 31/03/2015
Etablissement(s) : Université Grenoble Alpes (ComUE)
Ecole(s) doctorale(s) : École doctorale chimie et science du vivant (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'écologie alpine (Grenoble)
Jury : Président / Présidente : Christelle Breton
Examinateurs / Examinatrices : Aurélie Bonin, Jan Pawłowski
Rapporteurs / Rapporteuses : Henry Soldano, Engelbert Mephu-Nguifo

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse s'inscrit dans le cadre du traitement des données issues de séquençage haut débit, et en particulier des données produites en metabarcoding ADN. Le metabarcoding ADN consiste à identifier des taxons ou des groupes taxinomiques à partir de l'ADN présent dans des échantillons environnementaux (eau, sol, fèces...). Après extraction de l'ADN, de courtes séquences utilisées comme marqueurs taxinomiques sont amplifiées par PCR puis séquencées en utilisant les nouvelles techniques de séquençage haut débit. De très importants volumes de données sont ainsi générés, le plus souvent, de plusieurs milliers à plusieurs centaines de milliers de séquences par échantillon. L'objectif principal de cette thèse était le développement de méthodes d'analyse de ces séquences. Les méthodes de classification permettent de traiter de nombreuses problématiques en metabarcoding ADN. La classification supervisée est utilisée pour assigner les séquences à des taxons en les comparant aux séquences de bases de données de référence. Les méthodes de classification non supervisée permettent de créer des groupes taxinomiques (MOTU) à partir des séquences, afin de faire des estimations de biodiversité. Ces méthodes sont aussi employées pour identifier les séquences erronées produites par la PCR et le séquençage notamment, où les séquences erronées dérivent souvent des vraies séquences et leur sont très similaires. Les méthodes de classification demandent une méthode de comparaison des séquences qui soit idéalement à la fois très rapide et exacte. Une telle méthode a été développée, en utilisant un algorithme d'alignement global de type Needleman-Wunsch calculant la longueur de la plus longue sous-séquence commune entre les séquences à aligner, associé à un filtre sans perte permettant d'éviter l'alignement de certaines paires de séquences n'ayant aucune chance de présenter une similarité supérieure à un seuil choisi. L'utilisation d'instructions Single Instruction, Multiple Data, de même que le multithreading optionnel des calculs, permettent d'associer rapidité et exactitude. Cette méthode de comparaison est implantée dans SUMATRA, un programme calculant toutes les similarités deux à deux d'un jeu de données ou entre deux jeux de données, avec possibilité de fixer un seuil de similarité en dessous duquel les similarités ne sont pas rapportées. Elle est aussi utilisée dans SUMACLUST. SUMACLUST est un programme regroupant les séquences en utilisant un algorithme de clustering en étoile, où chaque groupe possède une séquence représentative. Il peut être utilisé pour créer des MOTU, ou pour détecter les séquences erronées dérivant de vraies séquences. Plus spécialisé, le programme SUMACLEAN a été développé pour détecter les séquences contenant des erreurs ponctuelles de PCR. Pour cela, des graphes orientés acycliques sont générés, dont la topologie correspond parfaitement aux cascades d'erreurs générées par les erreurs ponctuelles de PCR. Par ailleurs, une réflexion a été menée pour le développement d'une nouvelle approche de classification supervisée pour l'assignation taxinomique des séquences. Aujourd'hui, la plupart des approches d'assignation utilisent des méthodes mal adaptées au polymorphisme important des marqueurs, et ne considèrent pas suffisamment l'incomplétude et les erreurs inhérentes aux bases de données de référence. Une nouvelle approche a été testée, basée sur l'idée d'un départ depuis la racine de l'arbre taxinomique, suivi d'une descente jusqu'à un arrêt possible lorsque descendre à un niveau taxinomique plus précis semble irraisonnable. Cela permettrait en théorie de mieux gérer les problèmes inhérents aux bases de données de référence, mais pose le problème de la représentation des séquences aux différents niveaux de l'arbre, et du modèle de choix du chemin à prendre, pour lesquels aucune solution complètement satisfaisante n'a été trouvée à ce jour.