Thèse soutenue

Analyse de génomes microbiens : apports de la classification pyramidale
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Jean-Christophe Aude
Direction : Edwin Diday
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 1999
Etablissement(s) : Paris 9

Mots clés

FR

Résumé

FR

Cette thèse s'inscrit dans le cadre des méthodes d'analyse de données, plus particulièrement de la classification automatique. La forte augmentation des performances des systèmes de séquençage automatique a contribué à la croissance exponentielle de la taille des banques de séquences nucléiques et protéiques. Les séquences complètes d'une dizaine de génomes microbiens sont ainsi déjà disponibles. Les informations contenues dans ces banques permettent d'envisager une classification globale des gènes, ce qui apporte une connaissance fondamentale sur l'organisation, l'évolution et la fonction. L'analyse par des moyens traditionnels ne peut plus répondre aux exigences d'une analyse systématique. L'objet de cette thèse est la conception et l'implémentation d'un ensemble de méthodes permettant la classification inter- et intra- génomes. Ces méthodes sont multiples, nous nous sommes plus particulièrement focalisé sur : _ la détermination d'un indice de dissimilarité entre les séquences protéiques. Ceci nous a conduit à définir de nouvelles méthodes d'estimation de la qualité d'un score par une étude approfondie sur le z-score. _ la classification pyramidale diday84, est une méthode de classification permettant la création d'un recouvrement de l'ensemble des individus. Dans ce recouvrement, chaque individu ne peut appartenir au plus qu’à deux ensembles. Nous présentons l'intérêt de cette méthode pour la détection de structures multi-domaine simples. Enfin, nous présentons un algorithme de construction pyramidale par optimisation de la matrice robinsonienne, utilisant les régressions isotones. _ une méthode de classification composite, qui consiste à utiliser l'algorithme du lien simple, puis à effectuer une classification hiérarchique des sous-graphes obtenus, et enfin réaliser une classification pyramidale sur chaque composante. Ce travail est complété par la présentation des résultats induits par la méthode, les premières lois de la génomique slonimski98. Pour cette étude, nous avons implémenté plusieurs outils informatiques : platoo, une bibliothèque de fonctions c permettant l'analyse des résultats de comparaisons de séquences produits par lassap ; j/drawpyr, des programmes écris en langages c et java permettant le dessin et la manipulation interactive des représentations pyramidales.