Requêtes logiques sur les hyperflux
Auteur / Autrice : | Momar Ndiouga Sakho |
Direction : | Joachim Niehren, Iovka Boneva |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 24/07/2020 |
Etablissement(s) : | Université de Lille (2018-2021) |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur (Lille) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille |
Résumé
Les hyperflux sont des collections de flux de données avec références. Sachant qu’ils permettent la réception de données en parallèle plutôt que de manière purement séquentielle, l’on peut espérer que des données structurées transmises par leur biais puissent être traitées avec une latence moindre qu’avec un flux. Nous proposons ainsi de développer des algorithmes d’évaluation de requêtes logiques sur les hyperflux de données. Pour ce faire, nous nous intéressons à la faisabilité théorique et pratique d’un algorithme de décision du problème de certitude d’une réponse (CQA) sur les hyperflux. Nous étudions la complexité du CQA sur les hyperflux. Nous montrons d’abord que le CQA est intimement lié à des problèmes de correspondance de motifs dans les langages réguliers, et donc aux problèmes d’habitation des transitions d’automates de mots et d’arbres. Cela nous permet d’établir une classification de la complexité du CQA pour des classes d’automates et d’hyperflux variées. Nous obtenons des résultats en temps polynomial pour les hyperflux linéaires sans compression et les requêtes dé-finies par des automates déterministes pour forêts. Pour le cas général, la complexité atteint ExpTime. Nous développons ensuite un algo-rithme efficace pour l’approximation du CQA sur les hyperflux. Cet algorithme a une grande couverture, du fait qu’il s’applique à des hy-perflux et des classes d’automates arbitraires, et s’exécute en temps polynomial. Cependant, il ne détecte pas toujours les réponses certaines avec une latence minimale. La troisième contribution est un algorithme pour le CQA sur les flux, qui s’exécute en temps polynomial dans le cas de requêtes booléennes. Cet algorithme est aussi efficace en pratique pour le cas monadique, à l’inverse de toutes les précédentes propo-sitions. Nous le montrons expérimentalement en appliquant l’algorithme aux requêtes navigationnelles XPath habituellement prises pour référence, avec lesquelles toutes les approches précédentes de CQA sans approximation ont échoué. L’utilisation d’automates spéciaux pour les forêts a permis la mise en place dudit algorithme.