Conception et mise en œuvre d'outils bioinformatiques pour l'analyse des données de séquençage d'ARN

par Claudio Lorenzi

Thèse de doctorat en Biologie Santé

Sous la direction de William Ritchie.

Soutenue le 20-10-2021

à Montpellier , dans le cadre de Sciences Chimiques et Biologiques pour la Santé , en partenariat avec Institut de génétique humaine (Montpellier) (laboratoire) .

Le président du jury était Hervé Seitz.

Le jury était composé de William Ritchie, Hervé Seitz, Daniel Gautheret, Eduardo Eyras, Camille. Marchet, Alban Mancheron.

Les rapporteurs étaient Daniel Gautheret, Eduardo Eyras.


  • Résumé

    Une grande partie des informations contenues dans les données de séquençage de nouvelle génération est potentiellement perdue par l'analyse bioinformatique classique. L'alignement des lectures de séquençage sur un génome ou un transcriptome et le filtrage des résultats pour se concentrer sur des régions génétiques connues éliminent les informations utiles. Cela est particulièrement vrai dans les études sur le cancer où les transcriptomes ou les génomes des patients peuvent différer de leurs références.Nous avons créé une nouvelle approche qui utilise les avancées récentes dans les algorithmes génétiques, les réseaux de neurones et la sélection de caractéristiques pour explorer de manière exhaustive des volumes massifs de données de séquençage afin de classer les échantillons sans ces biais. Notre approche, appelée GECKO pour GEnetic Classification using k-mer Optimization, maximise les informations de séquençage utilisées pour tenter d'expliquer la différence entre 2 échantillons ou plus. Notre algorithme s'est avéré efficace pour classer les données d'études sur le cancer à grande échelle à l'aide du séquençage de l'ARNm, de l'ADN circulant ou du reséquençage du génome entier.iMOKA (interactive multi-objective k-mer analysis) est un logiciel qui permet l'analyse complète des données de séquençage de grandes cohortes pour générer des modèles de classification robustes ou explorer des éléments génétiques spécifiques associés à l'étiologie de la maladie. iMOKA utilise une étape de réduction de caractéristiques rapide et précise qui combine un classificateur Naïve Bayes augmenté d'un filtre d'entropie adaptatif et d'un filtre basé sur un graphique pour réduire rapidement l'espace de recherche. En utilisant un format de fichier flexible et une indexation distribuée, iMOKA peut facilement intégrer les données de plusieurs expériences et réduit également les besoins en espace disque et identifie les changements dans les niveaux de transcription et les variantes de nucléotide unique.Notre logiciel pourrait être exécuté sur un ordinateur de bureau et permettre aux scientifiques et aux cliniciens de découvrir de nouvelles séquences informatives dans leurs propres données NGS.La quantification et la détection précises des niveaux de rétention d'intron nécessitent un logiciel spécialisé. En nous appuyant sur notre logiciel précédent, nous avons créé une suite d'outils : IRFinder-S, pour analyser et explorer les événements de rétention d'intron dans plusieurs échantillons. Plus précisément, IRFinder-S permet une meilleure identification des véritables événements de rétention d'intron à l'aide d'un réseau de neurones convolutifs, permet le partage des résultats de rétention d'intron entre les laboratoires, intègre une base de données dynamique pour explorer et contraster les échantillons disponibles et fournit une méthode testée pour détecter les niveaux différentiels de rétention d'intron.

  • Titre traduit

    Design and implementation of bioinformatics tools for RNA sequencing data analysis


  • Résumé

    A large portion of the information contained in next-generation sequencing data is potentially lost through classical bioinformatics analysis. Both the mapping of sequencing reads to a genome or transcriptome and filtering results to focus on known gene regions eliminate useful information. This is especially true in cancer studies where patient transcriptomes or genomes may vary from their references.We created a novel approach that makes use of recent advances in genetic algorithms, neural networks and feature selection to comprehensively explore massive volumes of sequencing data to classify samples without these biases. Our approach, called GECKO for GEnetic Classification using k-mer Optimisation maximizes the sequencing information used when trying to explain the difference between 2 or more samples. Our algorithm has been effective at classifying data from large-scale cancer studies using mRNA-seq, circulating DNA or whole-genome resequencing.iMOKA (interactive multi-objective k-mer analysis) is a software that enables the comprehensive analysis of sequencing data from large cohorts to generate robust classification models or explore specific genetic elements associated with disease etiology. iMOKA uses a fast and accurate feature reduction step that combines a Naïve Bayes classifier augmented by an adaptive entropy filter and a graph-based filter to rapidly reduce the search space. By using a flexible file format and distributed indexing, iMOKA can easily integrate data from multiple experiments and also reduces disk space requirements and identifies changes in transcript levels and single nucleotide variants.Our software could be run on a desktop computer and enable scientists and clinicians to discover novel informative sequences in their own NGS data.Accurate quantification and detection of intron retention levels require specialized software. Building on our previous software, we have created a suite of tools: IRFinder-S, to analyse and explore intron retention events in multiple samples. Specifically, IRFinder-S allows a better identification of true intron retention events using a convolutional neural network, allows the sharing of intron retention results between labs, integrates a dynamic database to explore and contrast available samples and provides a tested method to detect differential levels of intron retention.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Universités de Montpellier. Bibliothèque électronique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.