Thèse soutenue

Algorithmes de compression et applications à l'analyse de séquences génétiques

FR  |  
EN
Auteur / Autrice : Éric Rivals
Direction : Max DauchetJean-Paul Delahaye
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1996
Etablissement(s) : Lille 1

Mots clés

FR

Résumé

FR

L'étude génétique des organismes est un champ d'exploration actif en biologie. Les programmes de séquençage de génomes apportent une quantité énorme de données brutes au biologiste, sous la forme de séquences d’ADN qui sont des textes sur un alphabet à quatre lettres. Pour obtenir une compréhension profonde de leur contenu, le biologiste a besoin de méthodes d'analyse des séquences. Nous nous plaçons dans le cadre de la complexité de Kolmogorov. La complexité de Kolmogorov d'une séquence est la longueur de sa forme la plus compressée. L'idée est que la compression est liée à la compréhension. Un algorithme de compression exploite une propriété pour comprimer un objet. Plus on compresse la description d'un objet, plus la propriété est pertinente pour l'objet en question. Dans cet optique, nous avons conçu des algorithmes de compression adaptes aux séquences génétiques qui permettent: La recherche et l'exploitation de régularités reparties sur une longue séquence (telles que des repetitions) ; La localisation de répétitions en tandem d'un petit motif pour la détection de zones de faible complexité, que les biologistes appellent le dos-dna. L'étude de la nature et de la répartition de dos-dna a permis d'identifier une propriété constante dans l'organisation chromosomique de la levure. Une dernière partie de notre travail vise à définir une notion effective de représentation optimale sous une condition de structure. Nous comparons notre définition à d'autres approches existantes, puis nous montrons sa robustesse et son applicabilité sur des exemples de formes naturelles.