Thèse soutenue

Proprietes statistiques des sequences biologiques et leurs simulations

FR
Auteur / Autrice : JEAN-PAUL FALLOT
Direction : Christian Michel
Type : Thèse de doctorat
Discipline(s) : Sciences biologiques fondamentales et appliquées
Date : Soutenance en 2000
Etablissement(s) : Besançon

Résumé

FR

Ce travail de these se situe dans le domaine du traitement informatique de donnees biologiques : proteines et genes. La demarche scientifique mise en uvre comporte 3 phases : (i) une analyse des sequences biologiques (etude de la realite) pour identifier des proprietes statistiques non-aleatoires ; (ii) une modelisation de ces proprietes a l'aide d'automates et de modeles analytiques d'evolution ; (iii) une interpretation biologique des modeles developpes et des resultats obtenus. Apres un etat de l'art sur la recherche de periodicites, une nouvelle definition de la fonction d'autocorrelation est proposee et appliquee aux proteines de collagenes fibreux. Les resultats identifient principalement 4 sous-ensembles d'acides amines et 6 types de periodicites decalees. Un automate, construit a l'aide d'un logiciel de recherche developpe, permet de simuler les collagenes et d'etablir une nouvelle relation entre ces sous-ensembles. Un retour du modele sur la realite montre que la longueur des genes codants des collagenes peut etre retrouvee dans leurs proteines associees. Apres une presentation des codes circulaires mis en evidence dans les genes codants, la methode statistique developpee pour les quantifier est exposee. Les resultats montrent principalement que les probabilites associees au code circulaire ne sont pas aleatoires et peuvent etre donnees sous forme d'inegalites a l'origine d'une asymetrie surprenante. Apres un etat de l'art sur les methodes probabilistes de l'evolution, une nouvelle extension de ces methodes est proposee permettant de determiner les probabilites analytiques des trinucleotides apres un processus de construction (probabilites initiales) suivi d'un processus de substitutions de trinucleotides fonction de 3 taux associes a leurs 3 sites. Le modele propose retrouve les proprietes statistiques observees dans les sequences genetiques. L'interpretation de ces resultats conduit a un modele biologique d'evolution du code circulaire.