Analyse de génomes microbiens : apports de la classification pyramidale
Auteur / Autrice : | Jean-Christophe Aude |
Direction : | Edwin Diday |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 1999 |
Etablissement(s) : | Paris 9 |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Cette thèse s'inscrit dans le cadre des méthodes d'analyse de données, plus particulièrement de la classification automatique. La forte augmentation des performances des systèmes de séquençage automatique a contribué à la croissance exponentielle de la taille des banques de séquences nucléiques et protéiques. Les séquences complètes d'une dizaine de génomes microbiens sont ainsi déjà disponibles. Les informations contenues dans ces banques permettent d'envisager une classification globale des gènes, ce qui apporte une connaissance fondamentale sur l'organisation, l'évolution et la fonction. L'analyse par des moyens traditionnels ne peut plus répondre aux exigences d'une analyse systématique. L'objet de cette thèse est la conception et l'implémentation d'un ensemble de méthodes permettant la classification inter- et intra- génomes. Ces méthodes sont multiples, nous nous sommes plus particulièrement focalisé sur : _ la détermination d'un indice de dissimilarité entre les séquences protéiques. Ceci nous a conduit à définir de nouvelles méthodes d'estimation de la qualité d'un score par une étude approfondie sur le z-score. _ la classification pyramidale diday84, est une méthode de classification permettant la création d'un recouvrement de l'ensemble des individus. Dans ce recouvrement, chaque individu ne peut appartenir au plus qu’à deux ensembles. Nous présentons l'intérêt de cette méthode pour la détection de structures multi-domaine simples. Enfin, nous présentons un algorithme de construction pyramidale par optimisation de la matrice robinsonienne, utilisant les régressions isotones. _ une méthode de classification composite, qui consiste à utiliser l'algorithme du lien simple, puis à effectuer une classification hiérarchique des sous-graphes obtenus, et enfin réaliser une classification pyramidale sur chaque composante. Ce travail est complété par la présentation des résultats induits par la méthode, les premières lois de la génomique slonimski98. Pour cette étude, nous avons implémenté plusieurs outils informatiques : platoo, une bibliothèque de fonctions c permettant l'analyse des résultats de comparaisons de séquences produits par lassap ; j/drawpyr, des programmes écris en langages c et java permettant le dessin et la manipulation interactive des représentations pyramidales.