Développement de modèles évolutifs pour les ARN non-codants
Auteur / Autrice : | José António Almeida Costa Da Cruz |
Direction : | Eric Westhof |
Type : | Thèse de doctorat |
Discipline(s) : | Bioinformatique |
Date : | Soutenance en 2011 |
Etablissement(s) : | Strasbourg |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
[. . . ]Pour répondre à la nécessité d'un pipeline d'annotation d'ARNnc rapide et fiable dans le contexte des projets de séquençage génomique de grand envergure, tels que lesprojets Génolevures et Dikaryome, nous avons mis au point deux pipelines d'annotation automatique, intégrant des outils disponibles publiquement, de recherche d'ARNnc par homologie et de novo. Les deux pipelines ont été appliqués à 15 génomes de levures et ont permis de trouver et d'annoter 1051 gènes d'ARNnc, correspondant à plus de 80% des ARNnc attendus pour ces génomes – si on prend comme référence le nombre d'ARNnc chez S. Cerevisiae. En outre, plusieurs nouveaux ARNnc, encore inconnus chez les Saccharomycotinae, ont été détectés. De plus, nous avons mis en évidence un ensemble de nouvelles observations sur la synténie de gènes d'ARNnc et de nouveaux exemples de domaines supplémentaires dans certains ARNnc essentiels. Les résultats montrent la faisabilité de la recherche automatique des ARNnc dans les génomes complets et l'utilité de telles approches dans les grands projets de séquençage et d'annotation génomique. L'intégration complète, dans le pipeline de développement, de nouveaux outils tels que ceux de prédiction de gènes d'ARNnc de novo ainsi que la possibilité de traiter des données provenant d'autres sources, comme les expériences de séquençage profond, sont les prochains défis à court terme dans cette ligne de travail. La confirmation expérimentale de ces observations, qui est au-delà de l'approche bioinformatique, doit être le prolongement naturel du projet d'annotation. Dans le strict domaine bioinformatique, le développement de nouvelles approches pour détecter les gènes d'ARNnc insaisissables tels que la composante ARN de la télomerase seraient des ajouts utiles à notre pipeline. Enfin, j'ai développé un algorithme original pour détecter les modules structuraux d'ARN uniquement à partir des informations de séquence (RMDetect). L'algorithme a été conçu pour identifier les modules structuraux connus dans les séquences simples et dans les alignements multiples en l'absence de toute autre information. L'algorithme utilise un réseau bayésien pour la représentation des modules couplé à l'estimation de la probabilité conjointe des paires de bases Watson-Crick participant à des modules. Actuellement, quatre modules peuvent être recherchés : la boucle ''G-bulge'', le''Kink Turn'', la boucle C et la boucle ''tandem GA''. Dans des séquences de test de contrôle, nous avons trouvé l'ensemble des modules connus avec un taux de fausse découverte de 0. 23. En cherchant les 1444 alignements publiquement disponibles, nous avons identifié 21 modules encore non détectés et 141 modules connus. RMDetect est une étape utile pour combler le fossé entre l'analyse pure de séquences et l'étude structurale de l'ARN. De plus, il peut être utilisé dans l'affinement des structures 2D d'ARN, dans l'assemblage de modèles 3D, et dans la recherche et l'annotation de gènes d'ARN structurés dans les génomes. Nous espérons améliorer l'approche actuelle par l'ajout de nouveaux modèles structuraux. La recherche de modules structuraux dans des génomes complets serait la prochaine étape dans cette ligne de recherche.