MiARN et compagnie : une exploration méthodologique du monde des petits ARNs
Auteur / Autrice : | Susan Higashi |
Direction : | Marie-France Sagot, Christian Gautier, Stefano Colella |
Type : | Thèse de doctorat |
Discipline(s) : | Bioinformatique |
Date : | Soutenance le 26/11/2014 |
Etablissement(s) : | Lyon 1 |
Ecole(s) doctorale(s) : | École doctorale Evolution Ecosystèmes Microbiologie Modélisation |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Biométrie et Biologie Evolutive - Laboratoire de Biométrie et Biologie Evolutive |
Jury : | Président / Présidente : Hubert Charles |
Examinateurs / Examinatrices : Christine Gaspin | |
Rapporteurs / Rapporteuses : Hervé Seitz, Peter F. Stadler, Hélène Touzet |
Résumé
La principale contribution de cette thèse est le développement d'une méthode fiable, robuste, et rapide pour la prédiction des pré-miARNs. Deux objectifs avaient été assignés : efficacité et flexibilité. L'efficacité a été rendue possible au moyen d'un algorithme quadratique. La flexibilité repose sur deux aspects, la nature des données expérimentales et la position taxonomique de l'organisme (en particulier plantes ou animaux). Mirinho accepte en entrée des séquences de génomes complets mais aussi les très nombreuses séquences résultant d'un séquençage massif de type NGS de “RNAseq”. “L'universalité” taxonomique est obtenu par la possibilité de modifier les contraintes sur les tailles de la tige (double hélice) et de la boule terminale. Dans le cas de la prédiction des miARN de plantes la plus grande longueur de leur pré-miARN conduit à des méthodes d'extraction de la structure secondaire en tige-boule moins précises. Mirinho prend en compte ce problème lui permettant de fournir des structures secondaires de pré-miARN plus semblables à celles de miRBase que les autres méthodes disponibles. Mirinho a été utilisé dans le cadre de deux questions biologiques précises l'une concernant des RNAseq l'autre de l'ADN génomique. La première question a conduit au traitement et l'analyse des données RNAseq de Acyrthosiphon pisum, le puceron du pois. L'objectif était d'identifier les miARN qui sont différentiellement exprimés au cours des quatre stades de développement de cette espèce et sont donc des candidats à la régulation des gènes au cours du développement. Pour cette analyse, nous avons développé un pipeline, appelé MirinhoPipe. La deuxieme question a permis d'aborder les problèmes liés à la prévision et l'analyse des ARN non-codants (ARNnc) dans la bactérie Mycoplasma hyopneumoniae. Alvinho a été développé pour la prédiction de cibles des miRNA autour d'une segmentation d'une séquence numérique et de la détection de la conservation des séquences entre ncRNA utilisant un graphe k-partite. Nous avons finalement abordé un problème lié à la recherche de motifs conservés dans un ensemble de séquences et pouvant ainsi correspondre à des éléments fonctionnels