Conception d'un module d'annotation semi-automatique de génomes à l'aide d'une hiérarchie fonctionnelle
Auteur / Autrice : | Lucie Gentils |
Direction : | Christine Froidevaux |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2008 |
Etablissement(s) : | Paris 11 |
Partenaire(s) de recherche : | autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne) |
Mots clés
Mots clés contrôlés
Résumé
Afin de comprendre le mode de fonctionnement de certains organismes, les biologistes en étudient les protéines en leur attribuant entre autres des fonctions. Cette tâche, appelée annotation fonctionnelle est extrêmement longue. Il est donc indispensable de l'automatiser en partie. Nous utilisons une hiérarchie fonctionnelle dérivée de SubtiList pour annoter les protéines par notre système semi-automatique car les génomes bactériens, Lactobacillus bulgaricus et sakei, qui servent à notre étude ont été annotés à l'aide de cette hiérarchie. Afin de prédire les classes fonctionnelles de protéines pour les proposer aux experts biologistes de l'INRA, nous utilisons des algorithmes d'apprentissage sur des critères décrivant les protéines. Ceux-ci renseignent sur les relations de similarité entre protéines et sur leurs propriétés intrinsèques. Tilde, un système d'apprentissage au premier ordre (de PLI) est utilisé pour construire des arbres de décision qui sont ensuite transformés en règles. Un protocole d'expérimentation est mis en place afin de prédire les classes fonctionnelles d'une protéine aux différents niveaux de la hiérarchie. Nous ajoutons aux règles trouvées un indice de confiance calculé à partir des résultats obtenus sur les données de validation. Tous les résultats sont stockés dans une base de données consultable via des pages web. Nous recensons dans un premier temps les différents couples annotations/prédictions possibles en fonction de la hiérarchie puis nous proposons des nouvelles mesures hiérarchiques pour évaluer notre système. Nous comparons notre système à Clus-HMC qui est moins expressif. Nous donnons quelques règles et arbres en exemple.