Thèse soutenue

Des lectures aux transcrits : méthodes de novo pour l'analyse du séquençage des transcriptomes de deuxième et troisième génération

FR  |  
EN
Auteur / Autrice : Camille Marchet
Direction : Pierre Peterlongo
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 28/09/2018
Etablissement(s) : Rennes 1 en cotutelle avec Rennes 1
Ecole(s) doctorale(s) : MATHSTIC
Partenaire(s) de recherche : ComuE : Université Bretagne Loire (2016-2019)
Laboratoire : Institut de recherche en informatique et systèmes aléatoires (Rennes)

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le but de ce travail de thèse est de permettre le traitement de données issues du séquençage de transcriptomes, c'est-à-dire les séquences d'ARN messager, qui reflètent l’expression des gènes. Plus précisément, il s’agit mettre à profit les caractéristiques des données produites par les nouvelles technologies de séquençage, dites de troisième génération (TGS). Ces technologies produisent des séquences de grande taille, qui peuvent couvrir la longueur totale des molécules d'ARN. Ceci présente l’avantage d’éviter la phase d’assemblage des séquences, une étape source de difficultés et d'erreurs mais nécessaire avec les données générées par les précédentes technologies de séquençage appelées NGS. En revanche, les données TGS sont bruitées (jusqu’à 15% d’erreurs de séquençage), nécessitant le développement de nouveaux algorithmes pour analyser ces données. Les travaux de cette thèse ont essentiellement consisté au développement méthodologique et à l’implémentation de nouveaux algorithmes permettant le regroupement des séquences TGS par gène, puis à leur correction et enfin à la détection des différents isoformes de chaque gène.