Méthodes parallèles pour le traitement des flux de données continus

Ge Song

Thèse Année : 2016

Parallel and continuous join processing for data stream

Méthodes parallèles pour le traitement des flux de données continus

(1)

Ge Song

Fonction : Auteur

Mathématiques Appliquées aux Systèmes - EA 4037

Résumé

We live in a world where a vast amount of data is being continuously generated. Data is coming in a variety of ways. For example, every time we do a search on Google, every time we purchase something on Amazon, every time we click a ‘like’ on Facebook, every time we upload an image on Instagram, every time a sensor is activated, etc., it will generate new data. Data is different than simple numerical information, it now comes in a variety of forms. However, isolated data is valueless. But when this huge amount of data is connected, it is very valuable to look for new insights. At the same time, data is time sensitive. The most accurate and effective way of describing data is to express it as a data stream. If the latest data is not promptly processed, the opportunity of having the most useful results will be missed.So a parallel and distributed system for processing large amount of data streams in real time has an important research value and a good application prospect. This thesis focuses on the study of parallel and continuous data stream Joins. We divide this problem into two categories. The first one is Data Driven Parallel and Continuous Join, and the second one is Query Driven Parallel and Continuous Join.

Nous vivons dans un monde où une grande quantité de données est généré en continu. Par exemple, quand on fait une recherche sur Google, quand on achète quelque chose sur Amazon, quand on clique en ‘Aimer’ sur Facebook, quand on upload une image sur Instagram, et quand un capteur est activé, etc., de nouvelles données vont être généré. Les données sont différentes d’une simple information numérique, mais viennent dans de nombreux format. Cependant, les données prisent isolément n’ont aucun sens. Mais quand ces données sont reliées ensemble on peut en extraire de nouvelles informations. De plus, les données sont sensibles au temps. La façon la plus précise et efficace de représenter les données est de les exprimer en tant que flux de données. Si les données les plus récentes ne sont pas traitées rapidement, les résultats obtenus ne sont pas aussi utiles. Ainsi, un système parallèle et distribué pour traiter de grandes quantités de flux de données en temps réel est un problème de recherche important. Il offre aussi de bonne perspective d’application. Dans cette thèse nous étudions l’opération de jointure sur des flux de données, de manière parallèle et continue. Nous séparons ce problème en deux catégories. La première est la jointure en parallèle et continue guidée par les données. La second est la jointure en parallèle et continue guidée par les requêtes.

Mots clés

Big Data Data Stream Parallel Computing Data Mining

Big Data Flux de Données Calculation en Parallel Exploration de Données

Domaines

Autre

Fichier principal

71970_SONG_2016_diffusion.pdf (10.08 Mo)

Origine : Version validée par le jury (STAR)

ABES STAR : Contact

https://theses.hal.science/tel-01396434

Soumis le : lundi 14 novembre 2016-14:30:11

Dernière modification le : jeudi 19 octobre 2023-16:48:47

Archivage à long terme le : mardi 21 mars 2017-13:45:44

Dates et versions

tel-01396434 , version 1 (14-11-2016)

Identifiants

HAL Id : tel-01396434 , version 1

Citer

Ge Song. Méthodes parallèles pour le traitement des flux de données continus. Autre. Université Paris Saclay (COmUE), 2016. Français. ⟨NNT : 2016SACLC059⟩. ⟨tel-01396434⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

STAR MAS GRID5000 CENTRALESUPELEC MICS UNIV-PARIS-SACLAY SILECS GS-ENGINEERING GS-COMPUTER-SCIENCE

677 Consultations

458 Téléchargements

Parallel and continuous join processing for data stream

Méthodes parallèles pour le traitement des flux de données continus

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager