Matrices score-position, algorithmes et propriétés

Aude Liefooghe

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Aude Liefooghe
Direction :	Hélène Touzet, Jean-Stéphane Varré
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 04/07/2008
Etablissement(s) :	Lille 1
Ecole(s) doctorale(s) :	École doctorale Sciences pour l'ingénieur (Lille)

Mots clés

FR

Mots clés contrôlés

Markov, Processus de

Régulation génétique

Facteurs de transcription

ADN

Ensembles, Théorie combinatoire des

Bioinformatique

Motifs (mathématiques)

Algorithmes

Informatique -- Mathématiques

Mots clés libres

Matrices score-position

Résumé

FR |

EN

Les travaux présentés dans cette thèse s'inscrivent dans le cadre de l"algorithmique et de la combinatoire du texte et s'appliquent à la bio-informatique. Plus particulièrement, ils concernent la localisation de motifs pondérés modélisés par des matrices score-position dans un texte non pondéré. Ces travaux sont appliqués au problème biologique de la recherche de sites de fixation de facteurs de transcription dans un génome. Cette application contribue à la compréhension de la régulation des gènes. Nous nous sommes attaqués à deux problèmes complémentaires, la recherche d'une seule matrice dans un texte puis la recherche simultanée d'un ensemble de matrices. Pour accélérer les algorithmes existant, nous nous sommes inspiré des algorithmes de recherche de motifs exacts connus pour leur efficacité. La différence est que les matrices score-position sont des motifs probabilistes, utilisant des fonctions de score. Nous devons donc intégrer la distribution de ces fonctions dans les algorithmes de recherche. Concernant le premier problème nous proposons une extension de l'algorithme de Knuth, Morris et Pratt qui repose sur un pré-traitement du motif pour optimiser le parcours le long du texte. Concernant le second problème nous avons utilisé une structure d'indexation afin de factoriser l'ensemble des matrices. Cette structure tire partie des distributions de scores associées à chaque matrice. Dans les deux cas, nous traitons en amont une partie des données de départ. Nous avons choisi de pré-traiter les matrices par rapport à l'application bio-informatique car les sites de fixation de facteurs de transcription sont des données relativement stables dans le temps. Ces algorithmes ont été mis en oeuvre dans un logiciel disponible en ligne appelé TFMscan. Ils ont fait l'objet d'une validation à grande échelle sur les bases de données de facteurs de transcription Jaspar et Transfac.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Matrices score-position, algorithmes et propriétés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Matrices score-position, algorithmes et propriétés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses