Thèse soutenue

Intégration de connaissances biomédicales hétérogènes grâce à un modèle basé sur les ontologies de support

FR  |  
EN
Auteur / Autrice : Jean Nikiema
Direction : Fleur Mougin
Type : Thèse de doctorat
Discipline(s) : Santé publique Informatique et Santé
Date : Soutenance le 10/10/2019
Etablissement(s) : Bordeaux
Ecole(s) doctorale(s) : École doctorale Sociétés, politique, santé publique (Bordeaux)
Partenaire(s) de recherche : Laboratoire : Bordeaux population Health
Jury : Président / Présidente : Geneviève Chêne
Examinateurs / Examinatrices : Fleur Mougin, Geneviève Chêne, Stefan Schulz, Anita Burgun, Vianney Jouhet, Olivier Bodenreider
Rapporteurs / Rapporteuses : Stefan Schulz, Anita Burgun

Mots clés

FR  |  
EN

Mots clés contrôlés

Résumé

FR  |  
EN

Dans le domaine de la santé, il existe un nombre très important de sources de connaissances, qui vont de simples terminologies, classifications et vocabulaires contrôlés à des représentations très formelles, que sont les ontologies. Cette hétérogénéité des sources de connaissances pose le problème de l’utilisation secondaire des données, et en particulier de l’exploitation de données hétérogènes dans le cadre de la médecine personnalisée ou translationnelle. En effet, les données à utiliser peuvent être codées par des sources de connaissances décrivant la même notion clinique de manière différente ou décrivant des notions distinctes mais complémentaires.Pour répondre au besoin d’utilisation conjointe des sources de connaissances encodant les données de santé, nous avons étudié trois processus permettant de répondre aux conflits sémantiques (difficultés résultant de leur mise en relation) : (1) l’alignement qui consiste à créer des relations de mappings (équivalence et/ou subsumption) entre les entités des sources de connaissances, (2) l’intégration qui consiste à créer des mappings et à organiser les autres entités dans une même structure commune cohérente et, enfin, (3) l’enrichissement sémantique de l’intégration qui consiste à créer des mappings grâce à des relations transversales en plus de celles d’équivalence et de subsumption.Dans un premier travail, nous avons aligné la terminologie d’interface du laboratoire d’analyses du CHU de Bordeaux à la LOINC. Deux étapes principales ont été mises en place : (i) le prétraitement des libellés de la terminologie locale qui comportaient des troncatures et des abréviations, ce qui a permis de réduire les risques de survenue de conflits de nomenclature, (ii) le filtrage basé sur la structure de la LOINC afin de résoudre les différents conflits de confusion.Deuxièmement, nous avons intégré RxNorm à la sous-partie de la SNOMED CT décrivant les connaissances sur les médicaments afin d’alimenter la SNOMED CT avec les entités de RxNorm. Ainsi, les médicaments dans RxNorm ont été décrits en OWL grâce à leurs éléments définitionnels (substance, unité de mesure, dose, etc.). Nous avons ensuite fusionné cette représentation de RxNorm à la structure de la SNOMED CT, résultant en une nouvelle source de connaissances. Nous avons ensuite comparé les équivalences inférées (entre les entités de RxNorm et celles de la SNOMED CT) grâce à cette nouvelle structure avec les équivalences créées de manière morphosyntaxique. Notre méthode a résolu des conflits de nomenclature mais s’est confrontée à certains conflits de confusion et d’échelle, ce qui a mis en évidence le besoin d’améliorer RxNorm et SNOMED CT.Finalement, nous avons réalisé une intégration sémantiquement enrichie de la CIM10 et de la CIMO3 en utilisant la SNOMED CT comme support. La CIM10 décrivant des diagnostics et la CIMO3 décrivant cette notion suivant deux axes différents (celui des lésions histologiques et celui des localisations anatomiques), nous avons utilisé la structure de la SNOMED CT pour retrouver des relations transversales entre les concepts de la CIM10 et de la CIMO3 (résolution de conflits ouverts). Au cours du processus, la structure de la SNOMED CT a également été utilisée pour supprimer les mappings erronés (conflits de nomenclature et de confusion) et désambiguïser les cas de mappings multiples (conflits d’échelle).