Thèse soutenue

Conception d'un module d'annotation semi-automatique de génomes à l'aide d'une hiérarchie fonctionnelle

FR  |  
EN
Auteur / Autrice : Lucie Gentils
Direction : Christine Froidevaux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2008
Etablissement(s) : Paris 11
Partenaire(s) de recherche : autre partenaire : Université de Paris-Sud. Faculté des sciences d'Orsay (Essonne)

Résumé

FR  |  
EN

Afin de comprendre le mode de fonctionnement de certains organismes, les biologistes en étudient les protéines en leur attribuant entre autres des fonctions. Cette tâche, appelée annotation fonctionnelle est extrêmement longue. Il est donc indispensable de l'automatiser en partie. Nous utilisons une hiérarchie fonctionnelle dérivée de SubtiList pour annoter les protéines par notre système semi-automatique car les génomes bactériens, Lactobacillus bulgaricus et sakei, qui servent à notre étude ont été annotés à l'aide de cette hiérarchie. Afin de prédire les classes fonctionnelles de protéines pour les proposer aux experts biologistes de l'INRA, nous utilisons des algorithmes d'apprentissage sur des critères décrivant les protéines. Ceux-ci renseignent sur les relations de similarité entre protéines et sur leurs propriétés intrinsèques. Tilde, un système d'apprentissage au premier ordre (de PLI) est utilisé pour construire des arbres de décision qui sont ensuite transformés en règles. Un protocole d'expérimentation est mis en place afin de prédire les classes fonctionnelles d'une protéine aux différents niveaux de la hiérarchie. Nous ajoutons aux règles trouvées un indice de confiance calculé à partir des résultats obtenus sur les données de validation. Tous les résultats sont stockés dans une base de données consultable via des pages web. Nous recensons dans un premier temps les différents couples annotations/prédictions possibles en fonction de la hiérarchie puis nous proposons des nouvelles mesures hiérarchiques pour évaluer notre système. Nous comparons notre système à Clus-HMC qui est moins expressif. Nous donnons quelques règles et arbres en exemple.