Thèse soutenue

Mise au point et utilisation de modèles de chaînes de Markov cachées pour l'étude des séquences d'ADN

FR  |  
EN
Auteur / Autrice : Pierre Nicolas
Direction : Bernard Prum
Type : Thèse de doctorat
Discipline(s) : Biomathématiques
Date : Soutenance en 2003
Etablissement(s) : Evry-Val d'Essonne

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Trois domaines d'application des modèles de chaînes de Markov cachées (HMM) pour l'interprétation des génomes bactériens ont été abordés dans cette thèse sous l'angle de l'utilisation d'approches d'estimation non supervisée. Tout d'abord, l'utilisation d'une méthode de segmentation des séquences d'ADN en régions de composition homogène a permis l'identification de transferts génétiques horizontaux chez Bacillus subtilis ainsi que d'autres niveaux d'hétérogénéités liés aux propriétés biologiques des gènes. Ensuite, un logiciel de prédiction de gènes a été développé. Une attention particulière a été portée à la recherche de très petits gènes. Une trentaine de gènes de taille inférieure à 50 acides aminés a ainsi été ajoutée à la vingtaine de petits gènes connus biologiquement chez B. Subtilis. Enfin, un algorithme de Monte-Carlo par chaîne de Markov (MCMC) est proposé pour la sélection bayésienne de modèles adaptés aux motifs des sites de fixation de l'ARN polymérase.