Des lectures aux transcrits : méthodes de novo pour l'analyse du séquençage des transcriptomes de deuxième et troisième génération
Auteur / Autrice : | Camille Marchet |
Direction : | Pierre Peterlongo |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 28/09/2018 |
Etablissement(s) : | Rennes 1 en cotutelle avec Rennes 1 |
Ecole(s) doctorale(s) : | MATHSTIC |
Partenaire(s) de recherche : | ComuE : Université Bretagne Loire (2016-2019) |
Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes) |
Mots clés
Mots clés contrôlés
Résumé
Le but de ce travail de thèse est de permettre le traitement de données issues du séquençage de transcriptomes, c'est-à-dire les séquences d'ARN messager, qui reflètent l’expression des gènes. Plus précisément, il s’agit mettre à profit les caractéristiques des données produites par les nouvelles technologies de séquençage, dites de troisième génération (TGS). Ces technologies produisent des séquences de grande taille, qui peuvent couvrir la longueur totale des molécules d'ARN. Ceci présente l’avantage d’éviter la phase d’assemblage des séquences, une étape source de difficultés et d'erreurs mais nécessaire avec les données générées par les précédentes technologies de séquençage appelées NGS. En revanche, les données TGS sont bruitées (jusqu’à 15% d’erreurs de séquençage), nécessitant le développement de nouveaux algorithmes pour analyser ces données. Les travaux de cette thèse ont essentiellement consisté au développement méthodologique et à l’implémentation de nouveaux algorithmes permettant le regroupement des séquences TGS par gène, puis à leur correction et enfin à la détection des différents isoformes de chaque gène.