Population d'ontologies automatisée, non supervisée et indépendante du domaine à partir de données non structurées - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Automated unsupervised and domain independent ontology population from unstructured data

Population d'ontologies automatisée, non supervisée et indépendante du domaine à partir de données non structurées

Yohann Chasseray

Résumé

The increasing complexity of industrial and social systems, combined with the growing impact ofinternal and external disturbance on them imply the need to acquire information and knowledgeabout the domain they are involved in in order to supervise those systems and ensure theirmanagement.In this perspective, the gathering of knowledge by expert agreement has led in many domains tothe elaboration of ontologies that can be integrated into decision support systems. Theseontologies provide -- at a high level -- the concepts of a domain and the relations binding them butdo not constitute a proper knowledge base that can be interpreted by a decision support system.Hence, their application to specific cases requires either a dedicated development that is incontradiction with knowledge engineering principles, or an ontology population step, often realizedmanually, still through domain experts.Then, the work conducted during this thesis is looking at the automated and unsupervisedpopulation of these ontologies from raw data whose production is increasing exponentially.Whether they are structured or unstructured, from different kinds of format (XML, raw text, PDFdocuments), and of different types (Web, databases, press articles, social network data), thesesources of data are all mines of knowledge that could assist the management of complex systemsand describe the context in which they are engaged. In this thesis, an approach using model-driven engineering is presented. Its aim is to conciliate unstructured raw data with ontologicalstructures used to organise and structure knowledge. This approach defines a generic metamodel-- i.e. independent of both the application domain and the data source used -- for the extraction ofinformation from unstructured data. A specified version of this strategy for textual data is proposedthrough an hybrid approach combining syntactic extraction rules and semantic analysis. Thisframework has led to the development of a prototype and to the application of this prototype todifferent domains (organic chemistry, biochemistry, crisis management) and from different sourcesof data (scientific articles and reports, Wikipedia articles, press articles).
La complexification des systèmes industriels et sociaux, conjuguée à l'impact grandissant des perturbations internes comme externes sur ces derniers, a fait naître le besoin d'acquérir informations et connaissances relatives au domaine et au contexte dans lesquels ils évoluent pour assurer leur pilotage. Dans cette optique, la réunion des connaissances par consensus d'experts a mené dans de nombreux domaines à la construction d'ontologies qui peuvent être intégrées à des systèmes d'aide à la décision. Si ces ontologies formalisent à haut niveau les concepts d'un domaine et les relations que ceux-ci entretiennent entre eux, elles ne constituent pas à proprement parler une base de connaissances qui soit actionnable par un système d'aide à la décision. Ainsi, leur mise en oeuvre requiert une étape de population de l'ontologie, le plus souvent réalisée manuellement, à nouveau via des experts du domaine. Cette tâche se révèle fastidieuse et chronophage, freinant le déploiement à l’échelle industrielle de nombreuses ontologies développées durant les deux dernières décennies. Les travaux de cette thèse s'intéressent donc à la population automatisée non supervisée de ces ontologies à partir de données brutes dont la production augmente de façon exponentielle. Qu'elles soient structurées ou non, sous différents formats (XML, texte brut, document PDF), et de différents types (Web, bases de données, articles de presse, réseaux sociaux), ces sources de données sont autant de mines de connaissances qui permettent d'assister le pilotage d'un système complexe et de décrire le contexte dans lequel il évolue. Dans cette thèse, une approche employant l'ingénierie dirigée par les modèles est explicitée. L'objectif de cette approche est de réconcilier les données brutes non structurées avec les structures ontologiques, utilisées pour organiser et structurer la connaissance. Cette démarche est l'occasion de définir un métamodèle générique - c'est-à-dire autant indépendant du domaine d'application que de la source de données exploitée - pour l'extraction d'informations à partir de données non structurées. La spécification de cette stratégie pour les données textuelles s'est faite à travers une approche hybride mariant règles d'extraction syntaxiques et analyse sémantique. Elle a par ailleurs donné lieu au développement d'un prototype logiciel et à l'application de ce dernier à différents domaines (chimie organique, biochimie, gestion de crise civile) et à partir de différentes sources de données (articles et ouvrages scientifiques, articles issus de l'encyclopédie Wikipedia, articles de presse).
Fichier principal
Vignette du fichier
CHASSERAY_Yohann.pdf (7.05 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04169672 , version 1 (24-07-2023)

Identifiants

  • HAL Id : tel-04169672 , version 1

Citer

Yohann Chasseray. Population d'ontologies automatisée, non supervisée et indépendante du domaine à partir de données non structurées. Autre [cs.OH]. Institut National Polytechnique de Toulouse - INPT, 2021. Français. ⟨NNT : 2021INPT0135⟩. ⟨tel-04169672⟩
32 Consultations
43 Téléchargements

Partager

Gmail Facebook X LinkedIn More