Statistical modeling and analysis of Internet latency traffic data - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2020

Statistical modeling and analysis of Internet latency traffic data

Modélisation statistique et analyse de données de latence de trafic Internet

Résumé

Information exchange speed on the Internet is measured with latency: the duration of the elapsed time between the sending of the first bit of a request and the reception of the first bit of the response. In this thesis carried out in collaboration with the company Citrix, we are interested in the analysis and modeling of latency data in a context of Internet traffic optimization.Citrix collects data through two different channels generating latency measurements suspected to share common properties. First, we study a probability distribution matching problem where the outputs are the transported probability distributions of the inputs under an unknown deterministic transport, and where the observables are independent samples drawn according to these probability distributions. We study an estimator of this transport and prove its convergence properties. We show that our estimator can be used to match the distributions of latency measurements from the two channels.Then, we propose a modeling strategy to predict the process obtained by calculating the moving median of latency measurements on regular partitions of the interval [0, T] with mesh D > 0. We show that the conditional mean of this process, which plays a major role in Internet traffic optimization, is correctly described by a decomposition into Fourier series and that its conditional variance forms clusters which are modeled using an ARMA Seasonal-GARCH process, i.e. an ARMA-GARCH process with additional deterministic seasonal terms. The predictive performance of this model is compared to benchmark models used in the industry. A new measure of the amount of residual information not captured by the model based on a certain entropy criterion is introduced.We then address the problem of outage detection in the Internet. We propose a change detection algorithm in the distribution of a latency data stream based on the comparison of two sliding windows using a certain weighted Wasserstein distance.Finally, we describe how to minimize the size of the training data sets used by the predictive algorithms to limit the calculation costs without impacting accuracy.
La vitesse des échanges d'information dans le réseau Internet se mesure à l'aide de la latence: une durée mesurant le temps écoulé entre l'envoi du premier bit d'information d'une requête et la réception du premier bit d'information de la réponse. Dans cette thèse réalisée en collaboration avec la société Citrix, nous nous intéressons à l'étude et à la modélisation des données de latence dans un contexte d'optimisation de traffic Internet.Citrix collecte des données via deux canaux différents, générant des mesures de latence soupçonnées de partager des propriétés communes. Dans un premier temps, nous nous intéressons à un problème d'ajustement distributionnel où les co-variables et les réponses sont des mesures de probabilité images l'une de l'autre par un transport déterministe, et les observables des échantillons indépendants tirés selon ces lois. Nous proposons un estimateur de ce transport et démontrons ses propriétés de convergence. On montre que notre estimateur peut être utilisé pour faire correspondre les distributions des mesures de latence générées par les deux canaux.Dans un second temps nous proposons une stratégie de modélisation pour prédire le processus obtenu en calculant la médiane mobile des mesures de latence sur des partitions régulières de l'intervalle [0, T] avec un maillage D > 0. On montre que la moyenne conditionnelle de ce processus, qui joue un rôle majeur dans l'optimisation du traffic Internet, est correctement décrite par une décomposition en séries de Fourier et que sa variance conditionnelle s'organise en clusters qu'on modélise à l'aide d'un processus ARMA Seasonal-GARCH, c'est à dire un processus ARMA-GARCH avec ajout de termes saisonniers déterministes. Les performances prédictives de ce modèle sont comparées aux modèles de référence utilisés dans l'industrie. Une nouvelle mesure de la quantité d'information résiduelle non captée par le modèle basée sur un certain critère entropique est introduite.Nous abordons ensuite le problème de la détection de panne dans le réseau Internet. Nous proposons un algorithme de détection de changement dans la distribution d'un stream de données de latence basé sur la comparaison de deux fenêtres glissantes à l'aide d'une certain distance de Wasserstein pondérée.Enfin, nous décrivons comment sélectionner les données d'entraînement des algorithmes prédictifs de manière à réduire leur taille pour limiter les coûts de calculs sans impacter la précision.
Fichier principal
Vignette du fichier
2020UPSLD017.pdf (7.72 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03256985 , version 1 (10-06-2021)
tel-03256985 , version 2 (14-06-2021)

Identifiants

  • HAL Id : tel-03256985 , version 2

Citer

Alexis Fremond. Statistical modeling and analysis of Internet latency traffic data. Functional Analysis [math.FA]. Université Paris sciences et lettres, 2020. English. ⟨NNT : 2020UPSLD017⟩. ⟨tel-03256985v2⟩
145 Consultations
196 Téléchargements

Partager

Gmail Facebook X LinkedIn More