Thèse soutenue

Apprentissage d'automates modélisant des familles de séquences protéiques

FR  |  
EN
Auteur / Autrice : Goulven Kerbellec
Direction : Rumen Andonov
Type : Thèse de doctorat
Discipline(s) : Informatique. Bioinformatique
Date : Soutenance en 2008
Etablissement(s) : Rennes 1

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse propose une nouvelle approche de découverte de signatures de familles de protéines. Etant donné un échantillon (non-aligné) de séquences appartenant à une famille structurelle ou fonctionnelle de protéines, cette approche infère des automates finis non-déterministes (NFA) caractérisant la famille. Un nouveau type d'alignement multiple nommé PLMA est introduit afin de mettre en valeur les similarités partielles et locales significativement similaires. A partir de ces informations, les modèles de type NFA sont produits par un procédé relevant du domaine de l'inférence grammaticale. Les modèles NFA, présentés ici sous le nom de Protomates, sont des modèles graphiques discrets de forte expressivité, ce qui les distingue des modèles statistiques de type profils HMM ou des motifs de type Prosite. Les expériences menées sur différentes familles biologiques dont les MIP et les TNF, montrent un succès sur des données réelles.