Thèse soutenue

Prédiction des séries temporelles larges

FR  |  
EN
Auteur / Autrice : Youssef Hmamouche
Direction : Lotfi LakhalAlain Casali
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/12/2018
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : Ecole doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....)
Partenaire(s) de recherche : Laboratoire : LIS Laboratoire d’Informatique et Systèmes. UMR CNRS 7020 (Marseille, Toulon)
Jury : Président / Présidente : Rosine Cicchetti
Examinateurs / Examinatrices : Cyril de Runz
Rapporteurs / Rapporteuses : Pietro Michiardi, Nadine Hilgert

Résumé

FR  |  
EN

De nos jours, les systèmes modernes sont censés stocker et traiter des séries temporelles massives. Comme le nombre de variables observées augmente très rapidement, leur prédiction devient de plus en plus compliquée, et l’utilisation de toutes les variables pose des problèmes pour les modèles classiques.Les modèles de prédiction sans facteurs externes sont parmi les premiers modèles de prédiction. En vue d’améliorer la précision des prédictions, l’utilisation de multiples variables est devenue commune. Ainsi, les modèles qui tiennent en compte des facteurs externes, ou bien les modèles multivariés, apparaissent, et deviennent de plus en plus utilisés car ils prennent en compte plus d’informations.Avec l’augmentation des données liées entre eux, l’application des modèles multivariés devient aussi discutable. Le challenge dans cette situation est de trouver les facteurs les plus pertinents parmi l’ensemble des données disponibles par rapport à une variable cible.Dans cette thèse, nous étudions ce problème en présentant une analyse détaillée des approches proposées dans la littérature. Nous abordons le problème de réduction et de prédiction des données massives. Nous discutons également ces approches dans le contexte du Big Data.Ensuite, nous présentons une méthodologie complète pour la prédiction des séries temporelles larges. Nous étendons également cette méthodologie aux données très larges via le calcul distribué et le parallélisme avec une implémentation du processus de prédiction proposé dans l’environnement Hadoop/Spark.