Grammaires a transformations morphiques recherche de motif - exacte ou approchee - adaptee aux sequences genetiques : le systeme gtm
Auteur / Autrice : | Christine Sinoquet |
Direction : | Philippe Besnard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1998 |
Etablissement(s) : | Rennes 1 |
Résumé
Nous nous interessons a la recherche de motifs composes dans une sequence. Ces motifs sont decrits a l'aide de grammaires a variables de type chaine et a transformations morphiques. Le concept de transformation morphique permet de capturer les aspects hors-contexte (inversion) et contextuel (repetition) d'un langage de sequences donne. Il est adapte a la description de liens entre regions d'une sequence et en particulier a la modelisation des dependances intra-moleculaires qui etablissent la structure secondaire des sequences genetiques. Nous definissons une classe de grammaires discontinues (a gaps implicites) et a transformations morphiques. La propriete fondamentale des transformations morphiques est exploitee lors d'un pretraitement de la sequence a analyser. Le pretraitement conduit a une representation auxiliaire de la sequence ou sont compiles les liens inter-regions, sous la forme d'une reference a un modele consensus commun. Ce procede permet d'atteindre les deux objectifs fixes : meme efficacite de traitement des transformations morphiques directes et inverses, reconnaissance approchee avec erreurs de substitution, d'insertion et de deletion. La pertinence d'un outil de validation de structure destine a l'etude de sequences biologiques exige ce deuxieme point. L'algorithme de pretraitement repose sur une extension parallele des modeles consensus et de leurs occurrences approchees modulo transformation morphique. Le formalisme gtm unifie deux notions, instanciation de variable et occurrence approchee de modele consensus, par le biais d'un mecanisme de primo-instanciation. La reduction des complexites spatiale et temporelle des phases de pretraitement et de derivation-instantiation-approchee est assuree par la prise en compte de contraintes absolues et relatives, exprimees dans la specification. Nous proposons en particulier un algorithme de filtrage par contraintes relatives, approche par exces, efficace. Le generateur automatique d'analyseurs gtm a ete valide dans le cadre de diverses approches : protocole de tests sur donnees artificielles, recherche d'arn de transfert, de pseudo-nuds, entre autres, pour le genome d'escherichia coli, et contribution a une etude philogenetique relative au genome humain. Pour le type d'analyse non deterministe precedent, la taille de l'espace des solutions est reduite grace a la specification (grammaticale) de contraintes. Nous nous interessons par ailleurs au cas d'analyses ou les contraintes sont inferees a partir d'un corpus d'apprentissage : nous posons les fondements theoriques d'une analyse syntaxique non deterministe guidee par connaissances statistiques. La prise en compte d'un contexte local d'analyse (modele de n-grams) permet de guider la recherche des meilleures solutions. Une application, dediee a un probleme de traduction (traduction reverse de sequences proteiques), a pris pour cible le genome d'escherichia coli.