Vers de nouvelles méthodes pour l'intégration et l'interrogation des données de capteurs géoréférencés appliquées au cloud environnemental au bénéfice de l'agriculture (CEBA)
Auteur / Autrice : | Thi Thu Trang Ngo |
Direction : | François Pinet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 22/06/2023 |
Etablissement(s) : | Université Clermont Auvergne (2021-...) |
Ecole(s) doctorale(s) : | École doctorale des sciences pour l'ingénieur (Clermont-Ferrand) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes |
Jury : | Président / Présidente : Dino Ienco |
Examinateurs / Examinatrices : David Sarramia, Myoung-Ah Kang | |
Rapporteur / Rapporteuse : Jérôme Darmont, Didier Donsez |
Mots clés
Résumé
Ces dernières années, l'utilisation généralisée de capteurs a révolutionné de nombreux secteurs, notamment dans l'agriculture et les applications pour l'environnement, à la suite de l'émergence de l'Internet des objets (IdO). Équipés de leurs propres batteries, les capteurs peuvent fonctionner de manière autonome dans des endroits éloignés, sans nécessiter de maintenance ou de contrôle. Ils sont généralement déployés en clusters, chaque capteur collectant des données sur son environnement et communiquant sans fil avec une ou plusieurs passerelles communiquant elles-mêmes avec un cloud. Les données collectées sont analysées et visualisées à l'aide de diverses techniques afin d'en extraire des informations et prendre des décisions. L'ensemble de ce processus est connu sous le nom de ''sensor-to-decision chain''. Cependant, l'analyse de données provenant de sources hétérogènes est une tâche complexe, surtout lorsqu'il s'agit de données de capteurs. L'une des difficultés réside dans les problèmes d'interopérabilité dus aux différents fournisseurs de capteurs. L' «Open Geospatial Consortium » (OGC) a défini plusieurs normes d'accès aux données de capteurs pour surmonter ces problèmes. De plus, le traitement des flux de données présente de nombreux défis en raison du débit élevé auquel les données des capteurs sont générées.Dans cette thèse, nous abordons d'abord l'analyse de données spatiales avec des systèmes NoSQL. Nous proposons à la fois une méthode et une architecture pour représenter et interroger un modèle d'entrepôt de données spatiales (SDW) avec la pile ELK (Elasticsearch, Logstash, Kibana). Nous démontrons comment mettre en œuvre un entrepôt de données géoréférencées dans une architecture basée sur ELK, avec l'utilisation d'un composant appelé IAT (Integration and Aggregation Tool) qui fonctionne comme un processus ETL (Extract- Transform-Load) en continu pour intégrer différentes données de capteurs et les charger dans Elasticsearch. Nous illustrons l'approche avec deux modèles multidimensionnels pertinents pour les données de capteurs environnementaux et montrons la valeur du système avec quelques requêtes réelles d'utilisateurs. En outre, nous évaluons le système avec un ensemble de données de référence par rapport à plusieurs aspects.Ensuite, nous présentons notre proposition de système basé sur des techniques de médiation pour l'analyse de données spatiales statiques et temps réel avec une intégration transparente. Nous abordons la question de l'intégration de différentes sources de données sous un schéma uniforme pour une analyse efficace. Nous proposons une interface et une grammaire SQL personnalisée pour exprimer des requêtes avec une sémantique pour le traitement des données spatiales et des flux. Le système proposé permet à un administrateur de configurer le système en concevant un schéma global et en définissant les correspondances entre le schéma global et les sources de données. Les utilisateurs peuvent exprimer des requêtes sur le schéma global dans une grammaire SQL dédiée, et le système réécrit la requête en une application Apache Spark. Le résultat est renvoyé à l'utilisateur en continu. De plus, nous implémentons dans le système de médiation, un optimiseur qui surpasse les plans de requêtes calculés nativement par Spark. Nos expériences montrent que ces optimisations améliorent le temps d'exécution des requêtes.Enfin, nous abordons la modélisation des données des capteurs IdO. Nous proposons un modèle multidimensionnel générique pour les sources de données compatibles avec l'API SensorThings, qui est basé sur le profil UML. En outre, nous modélisons le processus ETL et présentons notre proposition au moyen d'une étude de cas.