Thèse soutenue

Estimation dans des modèles à variables cachées : alignement des séquences biologiques et modèles d'évolution

FR  |  
EN
Auteur / Autrice : Ana Arribas Gil
Direction : Elisabeth Gassiat
Type : Thèse de doctorat
Discipline(s) : Mathématiques. Statistiques
Date : Soutenance en 2007
Etablissement(s) : Paris 11
Partenaire(s) de recherche : Autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Cette thèse est consacrée à l'estimation paramétrique dans certains modèles d'alignement de séquences biologiques. Ce sont des modèles construits à partir des considérations sur le processus d'évolution des séquences. Dans le cas de deux séquences, le processus d'évolution classique résulte dans un modèle d'alignement appelé pair-Hidden Markov Model (pair-HMM). Dans le pair-HMM les observations sont formées par le couple de séquences à aligner et l'alignement caché est une chaîne de Markov. D'un point de vue théorique nous donnons un cadre rigoureux pour ce modèle et étudions la consistance des estimateurs bayésien et par maximum de vraisemblance. D'un point de vue appliqué nous nous intéressons à la détection de motifs conservés dans les séquences à travers de l'alignement. Pour cela nous introduisons un processus d'évolution permettant différents comportements évolutifs à différents endroits de la séquence et pour lequel le modèle d'alignement est toujours un pair-HMM. Nous proposons des algorithmes d'estimation d'alignements et paramètres d'évolution adaptés à la complexité du modèle. Finalement, nous nous intéressons à l'alignement multiple (plus de deux séquences). Le processus d'évolution classique résulte dans ce cas dans un modèle d'alignement à variables cachées plus complexe et dans lequel il faut prendre en compte les relations phylogénétiques entre les séquences. Nous donnons le cadre théorique pour ce modèle et étudions, comme dans le cas de deux séquences, la propriété de consistance des estimateurs.