Extraction automatique de connaissances à partir de textes biomédicaux
Auteur / Autrice : | Inès Jilani |
Direction : | Marie-Christine Jaulent |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique biomédicale |
Date : | Soutenance en 2009 |
Etablissement(s) : | Paris 6 |
Résumé
L'évolution rapide de la masse d'informations disponible sur l'Internet, et particulièrement le nombre important de publications scientifiques dans le domaine biomédical indexées dans Medline, rend impossible la lecture et l'interprétation manuelles de toute la littérature scientifique par les biologistes et la annotateurs. Nous proposons d'extraire automatiquement des connaissances concernant les gènes et protéines à partir de textes, grâce à une méthode issue du traitement automatique des langues, les patrons lexico-syntaxiques. Ils sont construits pour réaliser l'annotation fonctionnelle des gènes et protéines, avec des fonctions provenant de Gene Ontology. En outre, la connaissance extraite est qualifiée grâce à une échelle de confiance. En effet, les auteurs nuancent leurs assertions dans les textes, ces marqueurs sont donc repérés par notre méthode et permettent de catégoriser les phrases dans des classes de confiance distinctes. Enfin, un prototype implémentant les méthodes mises au point pour l'extraction de connaissances et pour sa qualification a été développé afin d'assister les biologistes et les annoteurs dans leurs tâches quotidiennes.