Thèse soutenue

Une nouvelle heuristique pour la détection de répétitions sur des génomes complets, pour la comparaison de génomes et pour la compression

FR  |  
EN
Auteur / Autrice : Arnaud Lefebvre
Direction : Thierry Lecroq
Type : Thèse de doctorat
Discipline(s) : Informatique. Bioinformatique
Date : Soutenance en 2003
Etablissement(s) : Rouen

Résumé

FR  |  
EN

Les travaux présentés dans ce mémoire décrivent une nouvelle heuristique permettant à la fois de détecter des répétitions sur des génomes complets, de comparer des génomes complets et de comprimer des données. Cette méthode, basée sur une structure de données appelée oracle des facteurs, comparée à des méthodes exhaustives, se révèle bien plus rapide et économique en espace tout en conservant une grande efficacité. Dans un premier temps, nous l'utilisons afin de détecter des répétitions exactes sur des chromosomes entiers. Une seconde phase d'extension des répétitions exactes permet alors la détection de répétitions approchées. Par la suite, cette même technique nous permet de comparer deux chromosomes entre eux. Des exemples d'applications au génome de la plante modèle Arabidopsis thaliana illustrent les possibilités de notre heuristique. Nous voyons ensuite qu'il est possible d'améliorer notre technique de base pour obtenir une heuristique donnant des résultats extrêmement proches que ceux obtenus par des méthodes exhaustives. Finalement, une méthode de compression de données a été développée, basée sur une factorisation par oracle des facteurs : nous l'appelons la o-factorisation.