Apprentissage d'automates modélisant des familles de séquences protéiques
Auteur / Autrice : | Goulven Kerbellec |
Direction : | Rumen Andonov |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique. Bioinformatique |
Date : | Soutenance en 2008 |
Etablissement(s) : | Rennes 1 |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse propose une nouvelle approche de découverte de signatures de familles de protéines. Etant donné un échantillon (non-aligné) de séquences appartenant à une famille structurelle ou fonctionnelle de protéines, cette approche infère des automates finis non-déterministes (NFA) caractérisant la famille. Un nouveau type d'alignement multiple nommé PLMA est introduit afin de mettre en valeur les similarités partielles et locales significativement similaires. A partir de ces informations, les modèles de type NFA sont produits par un procédé relevant du domaine de l'inférence grammaticale. Les modèles NFA, présentés ici sous le nom de Protomates, sont des modèles graphiques discrets de forte expressivité, ce qui les distingue des modèles statistiques de type profils HMM ou des motifs de type Prosite. Les expériences menées sur différentes familles biologiques dont les MIP et les TNF, montrent un succès sur des données réelles.