Thèse soutenue

Conception et mise en œuvre d'outils bioinformatiques pour l'analyse des données de séquençage d'ARN

FR  |  
EN
Auteur / Autrice : Claudio Lorenzi
Direction : William RitchieAlban Mancheron
Type : Thèse de doctorat
Discipline(s) : Biologie Santé
Date : Soutenance le 20/10/2021
Etablissement(s) : Montpellier
Ecole(s) doctorale(s) : Sciences Chimiques et Biologiques pour la Santé (Montpellier ; Ecole Doctorale ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Institut de génétique humaine (Montpellier)
Jury : Président / Présidente : Hervé Seitz
Examinateurs / Examinatrices : William Ritchie, Alban Mancheron, Hervé Seitz, Daniel Gautheret, Eduardo Eyras, Camille Marchet
Rapporteurs / Rapporteuses : Daniel Gautheret, Eduardo Eyras

Résumé

FR  |  
EN

Une grande partie des informations contenues dans les données de séquençage de nouvelle génération est potentiellement perdue par l'analyse bioinformatique classique. L'alignement des lectures de séquençage sur un génome ou un transcriptome et le filtrage des résultats pour se concentrer sur des régions génétiques connues éliminent les informations utiles. Cela est particulièrement vrai dans les études sur le cancer où les transcriptomes ou les génomes des patients peuvent différer de leurs références.Nous avons créé une nouvelle approche qui utilise les avancées récentes dans les algorithmes génétiques, les réseaux de neurones et la sélection de caractéristiques pour explorer de manière exhaustive des volumes massifs de données de séquençage afin de classer les échantillons sans ces biais. Notre approche, appelée GECKO pour GEnetic Classification using k-mer Optimization, maximise les informations de séquençage utilisées pour tenter d'expliquer la différence entre 2 échantillons ou plus. Notre algorithme s'est avéré efficace pour classer les données d'études sur le cancer à grande échelle à l'aide du séquençage de l'ARNm, de l'ADN circulant ou du reséquençage du génome entier.iMOKA (interactive multi-objective k-mer analysis) est un logiciel qui permet l'analyse complète des données de séquençage de grandes cohortes pour générer des modèles de classification robustes ou explorer des éléments génétiques spécifiques associés à l'étiologie de la maladie. iMOKA utilise une étape de réduction de caractéristiques rapide et précise qui combine un classificateur Naïve Bayes augmenté d'un filtre d'entropie adaptatif et d'un filtre basé sur un graphique pour réduire rapidement l'espace de recherche. En utilisant un format de fichier flexible et une indexation distribuée, iMOKA peut facilement intégrer les données de plusieurs expériences et réduit également les besoins en espace disque et identifie les changements dans les niveaux de transcription et les variantes de nucléotide unique.Notre logiciel pourrait être exécuté sur un ordinateur de bureau et permettre aux scientifiques et aux cliniciens de découvrir de nouvelles séquences informatives dans leurs propres données NGS.La quantification et la détection précises des niveaux de rétention d'intron nécessitent un logiciel spécialisé. En nous appuyant sur notre logiciel précédent, nous avons créé une suite d'outils : IRFinder-S, pour analyser et explorer les événements de rétention d'intron dans plusieurs échantillons. Plus précisément, IRFinder-S permet une meilleure identification des véritables événements de rétention d'intron à l'aide d'un réseau de neurones convolutifs, permet le partage des résultats de rétention d'intron entre les laboratoires, intègre une base de données dynamique pour explorer et contraster les échantillons disponibles et fournit une méthode testée pour détecter les niveaux différentiels de rétention d'intron.