Thèse soutenue

Vers un système intelligent de capitalisation de connaissances pour l'agriculture durable : construction d'ontologies agricoles par transformation de sources existantes

FR  |  
EN
Auteur / Autrice : Fabien Amarger
Direction : Ollivier HaemmerléCatherine Roussey
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 18/12/2015
Etablissement(s) : Toulouse 2
Ecole(s) doctorale(s) : École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche : Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury : Président / Présidente : Marie-Hélène Abel
Examinateurs / Examinatrices : Ollivier Haemmerlé, Catherine Roussey, Juliette Dibie-Barthélemy, Chantal Reynaud, Jean-Pierre Chanet, Nathalie Hernandez
Rapporteurs / Rapporteuses : Juliette Dibie-Barthélemy, Chantal Reynaud

Résumé

FR  |  
EN

Les données disponibles sur le Web sont généralement de deux natures : (1) des données non structurées ou semi-structurées difficilement exploitables de manière automatique ou (2) des données structurées destinées à une utilisation particulière, difficilement réutilisables par d’autres applications. Le Web de données est une application du Web sémantique facilitant l’accès, le partage et l’alignement des données. Il existe actuellement de très nombreuses données disponibles sur le Web, mais qui ne sont pas publiées en suivant les principes du Web de données liées. Elles nécessiteraient d’être transformées en bases de connaissances. Nous proposons une méthodologie innovante qui permet de transformer plusieurs sources simultanément et non séquentiellement. Cette méthodologie permet la fusion de plusieurs sources de données orientée par des patrons de conception du domaine. Notre méthodologie spécifie la modélisation attendue du domaine en définissant la partie haute d’un module ontologique. Une chaîne de processus enrichit ce module par des éléments issus des sources : transformation syntaxique des sources, alignement, identification des éléments équivalents pour construire des candidats, calcul de score de confiance des candidats, filtrage des candidats. Notre travail part de l’hypothèse suivante : si un élément apparaît dans plusieurs sources, alors la possibilité qu’il appartienne au domaine d’étude est accrue. Nous avons défini différentes fonctions de calcul de la confiance consensuelle d’un candidat en mettant en évidence plusieurs caractéristiques comme le consensus entre sources ou la connectivité entre éléments d’un même candidat. Nous posons une deuxième hypothèse : un élément ne doit apparaître que dans un seul candidat pour obtenir une modélisation correcte. Cette hypothèse nous amène à définir la notion d’incompatibilité entre candidats. Nous pouvons considérer alors l’extraction des candidats qui ne partagent pas d’éléments, ce qui permet de faciliter le travail de validation. Pour évaluer nos propositions, nous avons mené trois expérimentations. La première a porté sur le domaine de la classification taxonomique des blés. Cette expérimentation nous a permis d’analyser la qualité des candidats générés avec l’aide de trois experts du domaine. La deuxième expérimentation a porté sur le même domaine et nous a permis de valider le temps gagné par un expert lors de la validation des candidats en considérant les incompatibilités. Pour la dernière expérimentation nous avons utilisé les données d’une campagne d’évaluation de systèmes d’alignements. Nous avons adaptés ces données pour évaluer la génération de candidats et la définition du score de confiance sur un grand jeu de données. Nous proposons une implémentation de cette proposition dans un outil réutilisable et paramétrable : Muskca. Celui-ci permet la fusion multi-sources pour la génération d’une base de connaissances consensuelle. L’application de nos travaux dans le domaine de l’agriculture nous a permis de constituer une base de connaissances sur la taxonomie des plantes. Cette base de connaissances permettra la représentation d’observations des attaques des agresseurs sur les cultures, ainsi que les techniques de traitement des agresseurs. Cette base de connaissances permettra de publier les données disponibles mais aussi d’annoter les nombreux documents mobilisables pour faire évoluer les pratiques agricoles.