Thèse soutenue

Mots interdits dans les séquences biologiques

FR
Auteur / Autrice : Sabria Benhamida
Direction : Maxime Crochemore
Type : Thèse de doctorat
Discipline(s) : Informatique fondamentale
Date : Soutenance en 2000
Etablissement(s) : Marne-la-Vallée

Mots clés

FR

Mots clés contrôlés

Résumé

FR

Cette these, situee dans le cadre de la bio-informatique, presente des methodes permettant la recherche de mots dans des sequences biologiques. Cette recherche se formalise par deux concepts. Le premier est la comparaison des sequences donnant lieu a la resolution des problemes d'alignement exact et approche entre une sequence a de symboles et un motif p. Une extension de ce probleme est le traitement des alignements entre une sequence a et une expression rationnelle r donnee par son automate. Le deuxieme concept est la recherche de mots interdits dans les sequences permettant de detecter les regions de faible entropie dans les sequences d'adn. On definit ici l'entropie comme le nombre de facteurs distincts presents dans une region. Ce calcul est effectue sur des sequences d'adn vues comme des textes sur l'alphabet des nucleotides a, c, g, t et realise a l'aide de la creation d'index de tous les facteurs interdits presents dans le texte. Les structures de donnees les mieux adaptees pour generer ces index sont les arbres et les automates de suffixes. Ils ont une taille lineaire par rapport a la taille du texte et le temps d'acces a un facteur w du texte est o (longueur (w)). L'utilisation des automates compacts des suffixes permet un gain en espace memoire grace a la compression. Cela offre la possibilite de construire des index de sequences deux fois plus grand qu'avec des automates de suffixes. En biologie, grace a ces structures de donnees, nous avons cree des paysages et nous avons effectue des analyses probabilistes sur les chromosomes de la levure saccharomyces cerevisiae. Nous avons aussi developpe et exploite une methode basee sur la mesure d'entropie de portions de sequences. Cette methode permet de detecter des zones contenant un nombre important ou faible de mots interdits. Utilisee pour la comparaison des sequences, cette methode permet de trouver des similarites indetectables avec les methodes classiques d'alignement