Développement de nouvelles méthodes algorithmiques pour le traitement des UMI à partir des données de séquençage haut débit.

par Vincent Sater

Thèse de doctorat en Informatique

Sous la direction de Thierry Lecroq et de Philippe Ruminy.

Le président du jury était Hugues Roest Crollius.

Le jury était composé de Jean-Philippe Jais, Elise Prieur-Gaston, Hélène Touzet.

Les rapporteurs étaient Thérèse Commes-Maerten, Pierre Peterlongo.


  • Résumé

    Les objectifs de cette thèse s’inscrivent dans la large problématique du traitement des données issues de séquenceurs à très haut débit, et plus particulièrement des reads courts, issus de séquenceurs de deuxième génération. Les aspects abordés dans cette problématique se concentrent principalement sur le développement de nouvelles méthodologies se basant sur des séquences moléculaires uniques appelées UMI utilisées pour étiqueter les fragments d’ADN initiaux et permettant d’améliorer la précision des résultats obtenus.Tout d’abord, dans le domaine de la transcriptomique, une nouvelle méthode a été développée afin d’améliorer les résultats de mesure de l’expression génique d’une part, et de détecter les transcrits de fusion dans les tumeurs d’autre part. Cette méthode se base sur une RT-MLPA couplée à un séquenceur NGS. Elle permet d’amplifier les fragments d’ARN présents dans un échantillon tumoral et d’obtenir les séquences des fragments récoltés. L’analyse sous-jacente vise à analyser ces séquences une par une pour, dans un premier temps, attribuer chaque séquence à l’échantillon séquencé, et dans un deuxième temps, retrouver le nom du gène qu’il exprime. Pour cela, RT-MiS a été développé. RT-MiS est un outil permettant d’effectuer la totalité de l’analyse commençant par l’extraction et la correction des UMI des séquences jusqu’à la production des résultats sous forme de matrice d’expression par gène pour chaque échantillon. RT-MiS comporte aussi une interface d’analyse dédiée permettant de lancer l’outil facilement par les chercheurs. Cette interface permet d’automatiser le plus possible le processus d’analyse complet et de produire les résultats sous formes de figures et graphiques interactifs rendant l’interprétation biologique plus facile.Ensuite, dans le domaine de la génomique, un nouvel outil de détection de variants somatiques a été développé. L’outil UMI-VarCal est un variant caller basé sur les UMI et donc implémentant une analyse de ces derniers pour appeler efficacement les variants dans les échantillons tumoraux. L’utilité des UMI est mise en évidence par l’amélioration de la précision de détection des variants, surtout quand la fréquence tombe au-dessous de 1%. UMI-VarCal applique un test de Poisson pour filtrer les positions ne présentant pas des variants et puis se sert d’une analyse des UMI et de deux filtres complémentaires pour filtrer les faux positifs. UMI-VarCal a été conçu de façon très optimisée afin d’effectuer son analyse tout en restant plus efficace que les autres outils en termes de détectionde variants et de temps d’exécution.Finalement, et toujours dans le domaine de la détection des variants, un nouveau simulateur de reads a été développé. Cet outil appelé UMI-Gen est le premier simulateur de reads capable de générer des séquences avec des UMI. De plus, UMI-Gen est capable d’insérer des variants somatiques (SNV) ou des variants structuraux (CNV) dans les fichiers simulés. En outre, en analysant un ensemble de fichiers normaux, il est capable d’estimer le bruit de fond dans ces échantillons pour le reproduire dans les reads simulés. Ces fichiers peuvent être utilisés par la suite pour évaluer les variant callers, surtout ceuximplémentant une analyse UMI dans leur algorithme.

  • Titre traduit

    Development of new methods and algorithms for the processing of UMI in high throughput sequencing data


  • Résumé

    The objectives of this thesis fall within the broad issue of processing data from next generation sequencers, and more particularly short reads from second-generation sequencers. The aspects addressed in this issue mainly focus on the development of new methodologies based on unique molecular sequences called UMI used to label the initial DNA fragments and to improve the precision of the results.First of all, in the field of transcriptomics, a new method has been developed in order to improve the results of measuring gene expression on the one hand, and to detect fusion transcripts in tumors on the other hand. This method is based on an RT-MLPA coupled to an NGS sequencer. It makes it possible to amplify the RNA fragments from a tumor sample and to obtain the sequences of the analyzed fragments. The underlying analysis aims to analyze these sequences one by one in order, first, to assign each sequence to the corresponding sample, and secondly, to find the name of the gene it expresses. For this, RT-MiS has been developed. RT-MiS is a tool that is able to perform the entire analysis starting with the extraction and correction of the UMI from the sequences until the production of the results in the form of an gene expression matrix for each sample. RT-MiSalso includes a dedicated analysis interface allowing for the tool to be launched easily by the users. This interface automates the entire analysis process as much as possible and produces the results in the form of interactive figures and graphs making biological interpretation much easier.Then, in the field of genomics, a new somatic variant detection tool was developed. The UMI-VarCal tool is a UMI-based variant caller that implements a UMI analysis to efficiently call the variants in tumor samples. The utility of using the information from the UMI is highlighted by the improved accuracy of variant detection, especially when the frequency falls below 1%. UMI-VarCal applies a Poisson test to filter out non-variant positions and then applies a UMI analysis and two complementary filters to remove false positives. UMI-VarCal has been designed in a highly optimized manner allowing it to perform its analysis while remaining more efficient than other tools in terms of variant detection and execution time.Finally, and still in the field of variant detection, a new read simulator was developed. This tool called UMI-Gen is the first read simulator capable of generating sequences with UMI. In addition, UMI-Gen is capable of inserting somatic variants (SNV) or structural variants (CNV) into the simulated files. Furthermore, by analyzing a set of normal files, it is able to estimate the background noise in these samples and reproduce it in the simulated data. These files can be used later to evaluate different variant callers, especially those implementing a UMI analysis in their algorithm.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de Rouen. BU Lettres, Sciences humaines. Service commun de la documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.