Liens et bases de donnees genomiques
Auteur / Autrice : | Frédéric Achard |
Direction : | Philippe Dessen |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences médicales |
Date : | Soutenance en 1998 |
Etablissement(s) : | Paris 7 |
Résumé
Pour des raisons scientifiques, mais aussi des raisons historiques et politiques, les donnees generees par le programme genome humain sont dissiminees dans de nombreuses bases de donnees heterogenes et independantes. Il faut concevoir les outils qui permettent une utilisation confortable et fructueuse des nombreuses ressources mises a la disposition des chercheurs. L'objectif final est de donner aux chercheurs la liberte de naviguer dans l'espace informationnel, de faciliter les interactions avec les donnees, de confronter des connaissances d'origines multiples, de decouvrir de nouvelles connexions semantiques. Les liens sont le medium permettant de partager et d'utiliser une information disseminee. Les travaux de recherche decrit dans ce memoire portent autour de deux realisations pour une meilleure caracterisation et gestion des donnees des liens : genxref et virgil. Genxref est un systeme qui emprunte a la technologie de recherche d'informations pour mettre a jour des liens entre des objets genomiques heterogenes. Ce systeme a ete teste pour generer des liens entre des genes de la gdb et des sequences nucleotidiques de genbank. Plus de 10 000 liens ont ainsi ete crees, avec une precision de 83% et un taux de rappel d'approximativement 32%. Virgil est une base de donnees de liens riches qui a ete developpee pour permettre une meilleure caracterisation et distribution des liens entre bases de donnees heterogenes. Le modele de donnees permet de decrire en detail un lien entre deux objets biologiques. Les donnees de virgil sont accessibles par differents moyens, notamment grace a un serveur corba. Dans la phase de test, virgil contient des donnees de liens entre la gdb et genbank.