Evaluating the impact of streaming systems design on application performance - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Evaluating the impact of streaming systems design on application performance

Évaluer l'impact de la conception des systèmes de streaming sur la performance des applications

Résumé

Data Stream Processing (DSP) is an established Big Data paradigm that allows to process and analyze data in real-time. Streaming applications are composed of a series of tasks, replicated and distributed over a cluster, that performs operations on the incoming data, providing continuous results updates. A wide range of works tackled several aspects of DSP, to improve system reliability and performance: task placement, fault tolerance and state management are just some of many examples. In this thesis, we study the limitations of current DSP platforms, focusing on performance from the application point-of-view.In the first part, we analyse message reliability mechanisms in streaming platforms. We uncover the tight interdependency between platform mechanisms and tasks scheduling algorithms. Especially when those mechanisms are implemented as non-functional tasks. Thus, we present two scheduling algorithms to optimize application performance, taking into account the impact of non-functional tasks placement. We show how correctly placing those tasks the performance of the streaming application are improved.In the second part, we present NAMB, an application prototype generator to tackle the shortcomings of current streaming application testing. First, we introduce the fundamentals over which we base NAMB, presenting the high-level description models used to define streaming applications. Then, we illustrate our application prototype generator, detailing the challenges of its implementation. Finally, we perform a wide evaluation, where we illustrate numerous possible use cases for our tool, giving insights on the processing load tuning. We demonstrate NAMB characteristics as a generic and flexible solution.
Le traitement des flux de données (DSP) est un paradigme établi de Big Data qui permet de traiter et d'analyser les données en temps réel. Les applications de streaming sont composées d'une série de tâches, répliquées et réparties sur un cluster, qui effectuent des opérations sur les données entrantes, fournissant des mises à jour continues des résultats. Un large éventail de travaux a abordé plusieurs aspects du DSP : le placement des tâches, la tolérance aux pannes et la gestion des états ne sont que quelques exemples parmi tant d'autres. Dans cette thèse, on étudie les limites des plates-formes DSP actuelles, en se concentrant sur les performances du point de vue de l'application.Dans la première partie, nous analysons les mécanismes de fiabilité des messages dans les plateformes de streaming. On découvre l'étroite interdépendance entre les mécanismes des plates-formes et les algorithmes d'ordonnancement des tâches. En particulier lorsque ces mécanismes sont mis en œuvre en tant que tâches non fonctionnelles. Ainsi, on présente deux algorithmes de planification pour optimiser les performances des applications, en tenant compte de l'impact du placement des tâches non fonctionnelles.Dans la deuxième partie, on présente NAMB, un générateur de prototypes d'applications pour pallier les insuffisances des tests actuels d'applications de streaming. Tout d'abord, on introduit les principes fondamentaux sur lesquels repose NAMB, en présentant les modèles de description de haut niveau utilisés pour définir les applications de streaming. Ensuite, on illustre notre générateur de prototypes d'applications, en détaillant les défis de sa mise en œuvre. Enfin, on effectue une large évaluation, où l'on illustre de nombreux cas d'utilisation possibles de notre outil, en démontrant ses caractéristiques en tant que solution générique et flexible.
Fichier principal
Vignette du fichier
2021COAZ4011.pdf (5.02 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03273377 , version 1 (29-06-2021)

Identifiants

  • HAL Id : tel-03273377 , version 1

Citer

Alessio Pagliari. Evaluating the impact of streaming systems design on application performance. Data Structures and Algorithms [cs.DS]. Université Côte d'Azur, 2021. English. ⟨NNT : 2021COAZ4011⟩. ⟨tel-03273377⟩
184 Consultations
155 Téléchargements

Partager

Gmail Facebook X LinkedIn More