Développement de méthodes de fouille de données basées sur les modèles de Markov cachés du second ordre pour l'identification d'hétérogénéités dans les génomes bactériens
FR |
EN
Auteur / Autrice : | Catherine Eng |
Direction : | Pierre Leblond, Jean-françois Mari |
Type : | Thèse de doctorat |
Discipline(s) : | Génomique |
Date : | Soutenance le 15/06/2010 |
Etablissement(s) : | Nancy 1 en cotutelle avec Université de Metz |
Ecole(s) doctorale(s) : | École doctorale BioSE - Biologie, Santé, Environnement |
Partenaire(s) de recherche : | Laboratoire : Génétique et microbiologie |
Jury : | Examinateurs / Examinatrices : Pierre Leblond, Jean-françois Mari, Olivier Gascuel, Jean-Stéphane Varré, Stéphane Aymerich, Annabelle Thibessard, Laurent Brehelin |
Rapporteur / Rapporteuse : Olivier Gascuel, Jean-Stéphane Varré |
Mots clés
FR |
EN
Mots clés contrôlés
Résumé
FR |
EN
Les modèles de Markov d’ordre 2 (HMM2) sont des modèles stochastiques qui ont démontré leur efficacité dans l’exploration de séquences génomiques. Cette thèse explore l’intérêt de modèles de différents types (M1M2, M2M2, M2M0) ainsi que leur couplage à des méthodes combinatoires pour segmenter les génomes bactériens sans connaissances a priori du contenu génétique. Ces approches ont été appliquées à deux modèles bactériens afin d’en valider la robustesse : Streptomyces coelicolor et Streptococcus thermophilus. Ces espèces bactériennes présentent des caractéristiques génomiques très distinctes (composition, taille du génome) en lien avec leur écosystème spécifique : le sol pour les S. coelicolor et le milieu lait pour S. thermophilus