Thèse soutenue

Algorithmes de graphes pour l'analyse des séquences et structures génomiques
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Romain Rivière
Direction : Alain Denise
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2005
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Mon travail de thèse porte sur le développement de méthodes pour l'étude des motifs de structures biologiques. La première partie de ce travail concerne l'étude des motifs d'ADN. L'ADN est modélisé par un mot sur l'alphabet A, C, G, T. Nous nous plaçons dans le cadre du modèle de séquence mélangée (modèle dit du "shuffling") dans lequel les nombres d'occurrences des facteurs de taille k sont fixés. Je propose un algorithme de génération aléatoire uniforme de séquences mélangées dans lesquelles apparaissent un certain nombre d'occurrences de motifs choisi à priori. D'un point de vue algorithmique, cela fait intervenir différente problèmes dont je montre qu'ils sont NP-complets. D'un point de vue biologique, ces séquences permettent d'estimer les Z-scores de motifs sachant que d'autres sont présents, ce qui est particulièrement important lors de la recherche de motifs correspondant à des signaux secondaires. Je propose le logiciel SMACK qui est capable de générer des séquences mélangées sous contraintes de motifs et d'estimer les Z-scores de tous les motifs d'une taille donnée dans ces modèles. La deuxième partie concerne l'étude des motifs d'ARN. L'ARN est modélisé par un graphe mixte, de degré borné, contenant un chemin hamiltonien connu. Je propose de modéliser un motif d'ARN par un sous-graphe induit connexe. Dans un premier temps, je développe un algorithme efficace d'énumération des motifs d'une molécule d'ARN. Puis, je propose plusieurs modèles de coloration des graphes représentant l'ARN, afin d'obtenir des représentations plus ou moins fines de celui-ci. Pour chacun des ces modèles, on introduit un étiquetage canonique des motifs d'ARN, ce qui nous permet de compter les occurrences des motife simplement par comparaisons de séquences. L'étape suivante est de comparer ces occurrences avec celles obtenues dans des modèles d'ARN aléatoire. Je traite du cas d'un modèle de graphe hamiltonien et du cas d'un modèle de structure secondaire utilisant le logiciel GenRGenS. Cette méthodologie est appliquée sur un ARN 23S, constituant de la grande sous-unité du ribosome de l'Haloarcula marismortui, ce qui permet d'en présenter des motifs que l'on pense pertinents.