Modélisation et détection automatique de sites de décalage de cadre en -1 dans les génomes eucaryotes
Auteur / Autrice : | Jean-Paul Forest |
Direction : | Christine Froidevaux |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2005 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) |
Résumé
Cette these presente une etude bioinformatique de la modelisation du decalage de cadre en -1, un phenomene biologique qui se produit lors de la traduction des arn messagers en proteines. Il se produit sur des sous-sequences particulieres. Le modele consensuel de ces sites est compose de deux elements fondamentaux : une sequence glissante et une structure secondaire qui est generalement un pseudo-noeud. Nous cherchons d'abord a affiner les parametres du modele. Nous montrons l'importance cruciale de la sequence primaire d'une sous-sequence composant le modele nommee l'espaceur. Dans un second temps, nous construisons de nouveaux sites grace a une methode d'apprentissage automatique. Leur efficacite est ensuite testee in vivo par des collaborateurs biologistes. Nous obtenons ainsi 13 nouveaux sites de decalage mutants de sites averes. Dans une seconde partie, nous recherchons des sites de decalage dans des genomes eucaryotes complets. Nous mettons au point l'algorithme orpheo qui recherche la sequence glissante a l'aide d'un automate fini et la structure secondaire en repliant les sequences d'arn. Ces deux etapes permettent de detecter des sequences candidates dans les genomes. Ces candidats sont ensuite ordonnes par une methode d'apprentissage automatique. L'efficacite des meilleurs candidats a ete testee experimentalement. Nous obtenons ainsi 2 sites de decalage de cadre sur le genome de s. Cerevisiae.