Une nouvelle heuristique pour la détection de répétitions sur des génomes complets, pour la comparaison de génomes et pour la compression
Auteur / Autrice : | Arnaud Lefebvre |
Direction : | Thierry Lecroq |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique. Bioinformatique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Rouen |
Résumé
Les travaux présentés dans ce mémoire décrivent une nouvelle heuristique permettant à la fois de détecter des répétitions sur des génomes complets, de comparer des génomes complets et de comprimer des données. Cette méthode, basée sur une structure de données appelée oracle des facteurs, comparée à des méthodes exhaustives, se révèle bien plus rapide et économique en espace tout en conservant une grande efficacité. Dans un premier temps, nous l'utilisons afin de détecter des répétitions exactes sur des chromosomes entiers. Une seconde phase d'extension des répétitions exactes permet alors la détection de répétitions approchées. Par la suite, cette même technique nous permet de comparer deux chromosomes entre eux. Des exemples d'applications au génome de la plante modèle Arabidopsis thaliana illustrent les possibilités de notre heuristique. Nous voyons ensuite qu'il est possible d'améliorer notre technique de base pour obtenir une heuristique donnant des résultats extrêmement proches que ceux obtenus par des méthodes exhaustives. Finalement, une méthode de compression de données a été développée, basée sur une factorisation par oracle des facteurs : nous l'appelons la o-factorisation.