Alignement avec des familles de séquences protéiques
Auteur / Autrice : | Pierre Nicodème |
Direction : | Jean-Marc Steyaert |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1997 |
Etablissement(s) : | Paris 7 |
Résumé
Nous etudions les problemes mathematiques et algorithmiques lies a l'alignement de sequences. Un modele construit sur un schema de scores additif est utilise par les biologistes pour comparer entre elles des sequences d'ADN ou des sequences de proteines. Dans ce modele un score est associe a l'appariement de deux lettres de l'alphabet considere. Karlin et Altschul ont formalise cette approche au moyen d'un modele de marche aleatoire. La loi asymptotique du score de l'alignement optimal est une loi des valeurs extremes. Le modele utilise la factorisation de Wiener-Hopf et l'identite de Spitzer. Nous donnons une demonstration simple dans le cas ou les increments sont discrets, ce qui est le cas des applications biologiques. Nous etudions ensuite le cas ou l'on cherche a aligner un alignement multiple, compose d'un ensemble de sequences prealablement alignees, et une sequence. Nous considerons alors le cas des proteines et construisons des graphes d'alignement qui modelisent le niveau de conservation des acides amines pour les positions de l'alignement multiple. L'alignement optimal recherche correspond a present a un chemin de score maximal dans ces graphes, pour un choix donne des positions relatives de l'alignement multiple et de la sequence. Nous proposons un algorithme qui est une extension de l'algorithme d'alignement sequence a sequence BLAST. Nous verifions experimentalement que la loi des valeurs extremes reste verifiee dans ce cadre etendu. Nous comparons l'efficacite de ce nouvel algorithme avec celles d'algorithmes classiques pour la recherche de similarites. Nous appliquons les resultats obtenus a la base de familles de sequences proteiques PRODOM. Nous utilisons l'approche de Waterman et Vingron pour montrer que la methode des approximations poissonniennes s'applique tres efficacement aux calibrations probabilistes des familles de PRODOM pour cet algorithme