Thèse soutenue

Développement de nouveaux algorithmes pour avancer dans la découverte des microARNs
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Carol Moraga Quinteros
Direction : Marie-France SagotRodrigo A. Gutiérrez
Type : Thèse de doctorat
Discipline(s) : Bioinformatique
Date : Soutenance le 03/11/2020
Etablissement(s) : Lyon
Ecole(s) doctorale(s) : École Doctorale Evolution Ecosystèmes Microbiologie Modélisation
Partenaire(s) de recherche : établissement opérateur d'inscription : Université Claude Bernard (Lyon ; 1971-....)
Laboratoire : Laboratoire de Biométrie et Biologie Evolutive
Jury : Président / Présidente : Cristina Vieira-Heddi
Examinateurs / Examinatrices : Marie-France Sagot, Rodrigo A. Gutiérrez, Ana Teresa Correia de Freitas, Gonzalo Ruz, Stephan Ossowski, Elena Vidal, Andrea Miyasaka Almeida
Rapporteurs / Rapporteuses : Ana Teresa Correia de Freitas, Gonzalo Ruz, Stephan Ossowski

Résumé

FR  |  
EN

Les miARNs sont de petites molécules d’ARN, plus courtes que 25 nucléotides, qui ont été identifiées comme étant des régulateurs clés de l’expression génétique au niveau post-transcriptionnel. Les miARNs sont impliqués dans un large éventail de processus biologiques, y compris le cycle cellulaire, la différenciation, l’apoptose et la pathogenèse de maladies. Il est très important de comprendre comment les miARNs communiquent et régulent l’expression au niveau du génome, mais tout d’abord, il est nécessaire de les identifier. De nos jours, une pratique expérimentale courante consiste à capturer la séquence et l’expression des miARNs en utilisant les technologies de séquençage de nouvelle génération (NGS). De telles expériences de séquençage génèrent des millions de lectures de sARN-seq, nécessitant ainsi le développement d’algorithmes pour transformer de telles données en grande quantité en connaissances biologiques utiles. Actuellement, de nombreux outils bioinformatiques ont été développés pour analyser et identifier les miARNs mais la plupart d’entre eux s’appuient sur les informations de conservation au niveau de la séquence et sur des génomes de référence qui ne permettent pas l’identification de nouveaux miARNs et qui sont spécifiques d’une espèce. Lorsque nous n’avons pas de génome de référence de haute qualité ou pas de génome du tout, nos possibilités sont ainsi considérablement réduites. D’abord, je présente des analyses expérimentales et bioinformatiques de données doubles sRNA-seq et mRNA-seq obtenues en profilant l’interaction hôte-pathogène de Sus scrofa et de la bactérie Mycoplasma hyopneumoniae. L’objectif de ce travail était de démêler le réseau de régulation des miARNs orchestrant une telle interaction. J'ai performé les analyses computationnelles pour d’abord identifier, quantifier et annoter les miARNs ainsi qu’établir un pipeline permettant l’inférence in silico de réseaux de régulation miARN-ARNm à l’échelle du génome. Ces résultats ont été publiés dans la revue Scientific Reports https://www.nature.com/articles/s41598-020-70040-y). L’expérience que j’ai acquise dans ce travail avec les outils de pointe actuels pour la découverte de miARNs et la prédiction de leurs cibles a été essentielle pour identifier la faiblesse de ces outils et donc des lignes de recherche algorithmiques potentielles, qui se sont avérées être liées à la première étape de l’analyse des miARNs, à savoir leur identification. Cela a conduit à l’élaboration de l’algorithme BrumiR qui est la principale contribution de cette thèse. BrumiR permet de découvrir des miARNs sans génome de référence. J’ai aussi élaboré l’outil miRsim qui permet de simuler des données de sRNA-seq et a été essentiel pour évaluer BrumiR. Bien que la prédiction de miARNs sans génome de référence soit utile pour les espèces non modèles, lorsqu’un génome de référence ou un projet de génome est disponible, il doit être intégré dans la découverte des miARNs. À ce propos, j’ai également développé l’outil BrumiR2Reference qui peut intégrer un génome de référence pour affiner davantage les prédictions de BrumiR. De plus, Je présente également dans cette thèse un benchmark de la performance de BrumiR utilisant des données publiques provenant d’espèces végétales et animales. Par ailleurs, nous montrons l’efficacité de la boîte à outils BrumiR pour découvrir de nouveaux miARNs en utilisant des données de sRNA-seq générées à partir de racines de la plante Arabidopsis thaliana. Ces résultats sont décrits dans un manuscrit déjà soumis à une revue dont je suis le premier auteur. De plus, nous avons déposé notre manuscrit dans le référentiel BioRxiv (https://doi.org/10.1101/2020.08.07.240689) et tout le code de la boîte à outils BrumiR est disponible gratuitement dans GitHub (https://github.com/camoragaq)