Recherche des sites de régulation de la transcription dans des génomes bactériens
Auteur / Autrice : | Fabrice Touzain |
Direction : | Gregory Kucherov, Pierre Leblond |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 15/11/2007 |
Etablissement(s) : | Nancy 1 |
Ecole(s) doctorale(s) : | IAEM Lorraine |
Partenaire(s) de recherche : | Laboratoire : LORIA |
Jury : | Président / Présidente : Sophie Schbath |
Examinateurs / Examinatrices : Gregory Kucherov, Pierre Leblond, Sophie Schbath, Claude Gerbaud, Christian Michel, Bertrand Aigle, Isabelle Debled-Rennesson | |
Rapporteurs / Rapporteuses : Claude Gerbaud, Christian Michel |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Nombre de programmes ont été développés pour identifier des sites de fixation de facteurs de transcription. La plupart ne sont pas capables d’inférer des motifs composés de deux mots en autorisant une variation de leur espacement, caractéristiques des sites de fixation des sous-unités s de l’ARN polymérase (SFFS). Cette thèse vise à l’élaboration d’un algorithme prenant en compte toutes les connaissances biologiques structurelles de ces sites en vue de leur prédiction fiable. Nous présentons une nouvelle approche, SIGffRid (pour SIGma Factor Finder using R’MES to select Input Data), pour l’identification des SFFS qui compare deux génomes bactériens phylogénétiquement apparentés. La méthode analyse des paires de régions promotrices de gènes orthologues. Elle utilise la sur-représentation statistiquement dans les génomes complets comme critère de sélection des boîtes -35 et -10 potentielles. Des motifs composites conservés sont alors groupés en utilisant des paires de courtes graines, en autorisant la variabilité de l’espacement qui les sépare. Les motifs sont ensuite étendus suivant des considérations statistiques. Les plus significatifs sont retenus. Cet algorithme a été applique´ avec succès à la paire de génomes bactériens apparentés de Streptomyces coelicolor A3(2) et Streptomyces avermitilis. Nous démontrons que notre approche, combinant des critères statistiques et biologiques, parvient à prédire des SFFS, et abordons les améliorations envisagées.