Thèse soutenue

Alignement multiple et séquençage de troisième génération

FR  |  
EN
Auteur / Autrice : Coralie Rohmer
Direction : Hélène Touzet
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 04/12/2023
Etablissement(s) : Université de Lille (2022-....)
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques, sciences du numérique et de leurs interactions (Lille ; 2021-....)
Partenaire(s) de recherche : Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille
Jury : Président / Présidente : François Boulier
Examinateurs / Examinatrices : Antoine Limasset, Thierry Lecroq
Rapporteurs / Rapporteuses : Matthias Zytnicki, Sèverine Bérard

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Le séquençage d'ADN n'a cessé d'évoluer ces dernières décennies, notamment avec l'arrivée du séquençage à haut-débit. La troisième génération de séquenceurs a produit de nouvelles données, que l'on nomme {em long reads}, qui permettent d'accéder à de nouvelles informations biologiques en surmontant les contraintes des générations précédentes, telles que la faible longueur et les biais de composition des séquences. Néanmoins, du fait de leurs forts taux et profil d'erreur, ces long reads posent également de nouvelles questions d'analyses de données. Cette thèse s'inscrit dans cette problématique et traite plus précisément du sujet de l'alignement multiple des long reads.L'alignement multiple permet, comme son nom le suggère, d'aligner plusieurs séquences d'ADN entre elles. Ce domaine joue un rôle très utile dans l'analyse de séquences. Cela permet, entre autres, d'identifier des domaines fonctionnels partagés entre espèces proches, d'identifier des variations entre différents individus ou d'analyser des gènes issus d'une même famille génétique pour en retracer l'histoire évolutive en phylogénie. C'est dans ce cadre que la plupart des méthodes d'alignement multiple ont vu le jour.L'application aux long reads est particulière, puisqu'il s'agit de détecter et corriger des erreurs commises lors du séquençage mais aussi d'identifier les variations au sein de l'ADN entre différents individus.Par conséquent, l'objectif de cette thèse est de vérifier s'il est possible d'appliquer les outils déjà existants, utilisant différentes méthodes d'alignement multiple, sur les long reads. Pour cela, j'ai développé un pipeline automatisé permettant la comparaison d'outils d'alignement multiples, ainsi qu'un benchmark original sur lequel j'ai pu mener l'évaluation de neuf outils d'alignement, de manière reproductible.