Knowledge graph management and streaming in the context of edge computing - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Knowledge graph management and streaming in the context of edge computing

Gestion des graphes de connaissances et streaming dans le contexte de l'edge computing

Weiqin Xu
  • Fonction : Auteur
  • PersonId : 1143205
  • IdRef : 261882600

Résumé

Edge Computing proposes to distribute computation and data storage closer to original data sources. This technology is becoming an important trend in IT. This is mainly due to the emergence of the Internet of Things and its set of compact devices, eg sensors, actuators or gateways, whose computing and storing capacities are ever-increasing. Different from Cloud Computing, which targets large data centers, Edge Computing's computation distribution strategy can potentially reduce network pressure and make full use of computation power of edge devices.In order to support smart data processing at the edge of the network, a knowledge representation strategy is needed. In 2021, technologies belonging to the so-called Semantic Web are mature and robust enough to bring intelligence to Edge computing. These technologies correspond to the RDF (Resource Description Framework) data model, the RDFS (RDF Schema) and OWL (Web ontology Language) ontology languages and their associated reasoning services, the SPARQL query language. A cornerstone of such an approach is an Edge device compliant RDF database management system. However, most RDF stores are designed for powerful servers or Cloud Computing. These systems partly owe their efficiency to costly indexing strategies, ie based on multiples indexes.In the context of Edge computing, characterised by relatively limited memory footprint and computing power, it is not reasonable to use any of these RDF stores. Hence, a novel kind of RDF store is needed. In this work, we consider that some of its features must be an in-memory approach, low-memory footprint for both the system and its managed data, adapted query optimization techniques to make query processing as fast as possible. Moreover, reasoning at query run-time and stream processing are required by several of the use cases that we have identified in real-world situations.For the aim of compressing RDF data while maintaining querying speed, we make an extensive use of Succinct Data Structure (SDS) data structures to benefit from its data compression and high data retrieving speed simultaneously. This help us to get a self-indexed compact RDF store which does not require decompression operation. Our query processing approach is adapted to our storage layout and to standard SDS operations, namely access, rank and select. We prove the efficiency of our approach with thorough evaluation.In order to help the acceleration of RDFS reasoning, we have designed our system based on a semantic-aware encoding strategy named LiteMat. This encoding scheme, which has been developed and maintained by our research team, has been extended in the PhD thesis to support multiple inheritance, transitive and inverse properties. It thus extends the expressive power of addressed ontologies.In real IoT use cases, data are usually continuously coming from sensors or actuators. To address this issue, an extension of SuccinctEdge has been designed to handle those streaming data. This extension includes an extra data structure in our RDF store to process numeric data with time-based aggregations and an adapted streaming-SPARQL extension processor to permit the querying of streaming data. With the help of this extra data structure and the adapted query processor, one can easily query the dynamic RDF graph by a streaming-SPARQL query. However, query execution on a dynamic graph may have many repeating graph searching, which may heavily slow down the system. In order to solve this problem, we separate a query into dynamic part and static part. The result of the static part is computed once and stored all along the duration of the continuous query processing. Concerning the dynamic part, the corresponding result is combined with the static part result to generate the final result of each query execution. We prove that our streaming extension system is of low latency and of high throughput with good robustness and correctness properties
Edge Computing propose de répartir le calcul et le stockage des données au plus près des sources de données d'origine. Cette technologie devient une tendance importante dans l'informatique. Ceci est principalement dû à l'émergence de l'Internet des objets et de son ensemble d'appareils compacts, eg. capteurs, actionneurs ou passerelles, dont les capacités de calcul et de stockage ne cessent de croître. Différente du Cloud Computing, qui cible les grands centres de données, la stratégie de distribution des calculs d'Edge Computing peut potentiellement réduire la pression du réseau et tirer pleinement parti de la puissance de calcul des périphériques du Edge computing.Afin de prendre en charge le traitement intelligent des données à la périphérie du réseau, une stratégie de représentation des connaissances est nécessaire. En 2021, les technologies appartenant au Web sémantique sont suffisamment matures et robustes pour apporter de l'intelligence à l'Edge computing. Ces technologies correspondent au modèle de données RDF (Resource Description Framework), aux langages d'ontologie RDFS (RDF Schema) et OWL (Web ontology Language) et à leurs services de raisonnement associés, le langage de requête SPARQL. La pierre angulaire d'une telle approche est un système de gestion de base de données RDF compatible avec les périphériques Edge. Cependant, la plupart des systèmes de base de données du type RDF sont conçus pour des serveurs puissants ou le Cloud Computing. Ces systèmes doivent, en partie, leur efficacité à des stratégies d'indexation coûteuses, c'est-à-dire basées sur des indices multiples.Dans le but de compresser les données RDF tout en maintenant la vitesse d'interrogation, nous utilisons abondamment les structures de données succinctes (SDS - Succinct Data Structure) pour bénéficier simultanément de sa compression de données et de sa vitesse élevée de récupération des données. Cela nous aide à obtenir un RDF store compact auto-indexé qui ne nécessite pas d'opération de décompression. Notre approche de traitement des requêtes est adaptée à notre agencement de stockage et aux opérations SDS standard, à savoir access, rank et select. Nous prouvons la capacité de notre approche par une évaluation approfondie.Afin d'aider à l'accélération du raisonnement RDFS, nous avons conçu notre système basé sur une stratégie d'encodage sémantique nommée LiteMat. Ce schéma d'encodage, qui a été développé et est maintenu par notre équipe de recherche, a été étendu dans cette thèse de doctorat pour prendre en charge l'héritage multiple, les propriétés transitives et inverses. Il étend ainsi le pouvoir expressif des ontologies adressées.Dans les cas d'utilisation réels de l'IoT, les données proviennent généralement en continu de capteurs ou d'actionneurs. Pour résoudre ce problème, une extension de SuccinctEdge a été conçue pour gérer ces données en streaming. Cette extension inclut une structure de données supplémentaire dans notre système de base de données RDF pour traiter les données numériques avec des agrégations temporelles et un processeur d'extension streaming-SPARQL adapté pour permettre l'interrogation des données de streaming. Avec l'aide de cette structure de données supplémentaire et du processeur de requêtes adapté, nous pouvons facilement interroger le graphe RDF dynamique par une requête streaming-SPARQL. Cependant, l'exécution d'une requête sur un graphe dynamique peut imposer de nombreuses recherches de graphe répétitives, ce qui peut fortement ralentir le système. Afin de résoudre ce problème, nous séparons une requête en une partie dynamique et une partie statique. Le résultat de la partie statique est calculé une seule fois et stocké pendant toute la durée du traitement continu de la requête
Fichier principal
Vignette du fichier
TH2021UEFL2030.pdf (2.1 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03697222 , version 1 (16-06-2022)

Identifiants

  • HAL Id : tel-03697222 , version 1

Citer

Weiqin Xu. Knowledge graph management and streaming in the context of edge computing. Artificial Intelligence [cs.AI]. Université Gustave Eiffel, 2021. English. ⟨NNT : 2021UEFL2030⟩. ⟨tel-03697222⟩
97 Consultations
81 Téléchargements

Partager

Gmail Facebook X LinkedIn More