Conversion automatique de modèles et de jeux de données pour l'exploration conceptuelle : Application à une base de connaissances du vivant
Auteur / Autrice : | Priscilla Keip |
Direction : | Marianne Huchard |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 16/12/2021 |
Etablissement(s) : | Montpellier |
Ecole(s) doctorale(s) : | École doctorale Information, Structures, Systèmes (Montpellier ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de coopération internationale en recherche agronomique pour le développement (France) |
Jury : | Président / Présidente : Farouk Toumani |
Examinateurs / Examinatrices : Marianne Huchard, Farouk Toumani, Mario Lezoche, Isabelle Comyn-Wattiau, Thierry Bourgoin, Isabelle Mougenot, Pierre Martin, Pierre Silvie | |
Rapporteurs / Rapporteuses : Mario Lezoche, Isabelle Comyn-Wattiau |
Mots clés
Mots clés contrôlés
Résumé
Les Sciences du vivant et de l'environnement génèrent de nombreuses bases de données et de connaissances.L'exploration conceptuelle est une approche de fouille de données qui permet d’en extraire de nouvelles connaissances. Les méthodes d'exploration conceptuelle considérées dans ce travail relèvent de l'Analyse de Concepts Formels (FCA).Toute méthode issue de FCA imposant en entrée une structuration prédéfinie des données, la question de recherche traitée concerne la conversion automatique d'une base de données ou de connaissances en vue de son exploration avec FCA ou avec l'Analyse de Concepts Relationnels (RCA), une extension aux données multi-relationnelles.Pour asseoir ce travail, nous avons utilisé la base de connaissances Knomana, qui rassemble des descriptions d'usage de plantes.Selon les connaissances considérées, diverses problématiques de conversion doivent être résolues pour permettre une fouille de données pertinente par les utilisateurs finaux. Ces problématiques peuvent se situer au niveau du schéma (modèle de classes) ou au niveau des instances, principalement (1) la conversion des relations de spécialisation en aplatissant la hiérarchie d’héritage; (2) la conversion d’une relation ternaire via la matérialisation ou des relations binaires, et (3) la levée de l'indétermination de la désignation d'organismes vivants par l'usage de l'abréviation spp. dans sa dénomination binominale (linnéenne).La méthodologie adoptée relève de l'ingénierie dirigée par les modèles, de la transformation des bases de données, du refactoring en ingénierie logicielle et de la conversion d'ontologies.Cette thèse présente un algorithme général de conversion d'un jeu de connaissances pour RCA, dont la structure est représentée sous la forme d'un diagramme de classes au format UML.L'algorithme est appliqué à Knomana et diverses modélisations de la relation ternaire en relations binaires et une modélisation de la levée de l'indétermination d'un nom d'espèce sont expérimentées.L'évaluation de cet algorithme est effectuée en regard de son applicabilité, de son aptitude à être utilisé pour des volumes de données importants (i.e. passage à l'échelle), et de sa pertinence. La perspective offerte par ce travail est de permettre l'analyse de tout jeu de données et de connaissances avec FCA et RCA.