Thèse soutenue

Développement de méthodes de fouille de données basées sur les modèles de Markov cachés du second ordre pour l'identification d'hétérogénéités dans les génomes bactériens

FR  |  
EN
Auteur / Autrice : Catherine Eng
Direction : Pierre LeblondJean-françois Mari
Type : Thèse de doctorat
Discipline(s) : Génomique
Date : Soutenance le 15/06/2010
Etablissement(s) : Nancy 1 en cotutelle avec Université de Metz
Ecole(s) doctorale(s) : École doctorale BioSE - Biologie, Santé, Environnement
Partenaire(s) de recherche : Laboratoire : Génétique et microbiologie
Jury : Examinateurs / Examinatrices : Pierre Leblond, Jean-françois Mari, Olivier Gascuel, Jean-Stéphane Varré, Stéphane Aymerich, Annabelle Thibessard, Laurent Brehelin
Rapporteur / Rapporteuse : Olivier Gascuel, Jean-Stéphane Varré

Résumé

FR  |  
EN

Les modèles de Markov d’ordre 2 (HMM2) sont des modèles stochastiques qui ont démontré leur efficacité dans l’exploration de séquences génomiques. Cette thèse explore l’intérêt de modèles de différents types (M1M2, M2M2, M2M0) ainsi que leur couplage à des méthodes combinatoires pour segmenter les génomes bactériens sans connaissances a priori du contenu génétique. Ces approches ont été appliquées à deux modèles bactériens afin d’en valider la robustesse : Streptomyces coelicolor et Streptococcus thermophilus. Ces espèces bactériennes présentent des caractéristiques génomiques très distinctes (composition, taille du génome) en lien avec leur écosystème spécifique : le sol pour les S. coelicolor et le milieu lait pour S. thermophilus