Thèse soutenue

Extraction automatique de connaissances à partir de textes biomédicaux

FR  |  
EN
Auteur / Autrice : Inès Jilani
Direction : Marie-Christine Jaulent
Type : Thèse de doctorat
Discipline(s) : Informatique biomédicale
Date : Soutenance en 2009
Etablissement(s) : Paris 6

Résumé

FR

L'évolution rapide de la masse d'informations disponible sur l'Internet, et particulièrement le nombre important de publications scientifiques dans le domaine biomédical indexées dans Medline, rend impossible la lecture et l'interprétation manuelles de toute la littérature scientifique par les biologistes et la annotateurs. Nous proposons d'extraire automatiquement des connaissances concernant les gènes et protéines à partir de textes, grâce à une méthode issue du traitement automatique des langues, les patrons lexico-syntaxiques. Ils sont construits pour réaliser l'annotation fonctionnelle des gènes et protéines, avec des fonctions provenant de Gene Ontology. En outre, la connaissance extraite est qualifiée grâce à une échelle de confiance. En effet, les auteurs nuancent leurs assertions dans les textes, ces marqueurs sont donc repérés par notre méthode et permettent de catégoriser les phrases dans des classes de confiance distinctes. Enfin, un prototype implémentant les méthodes mises au point pour l'extraction de connaissances et pour sa qualification a été développé afin d'assister les biologistes et les annoteurs dans leurs tâches quotidiennes.