Prédiction des séries temporelles larges
Auteur / Autrice : | Youssef Hmamouche |
Direction : | Lotfi Lakhal, Alain Casali |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 13/12/2018 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et Informatique de Marseille (Marseille ; 1994-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d’Informatique et Systèmes (Marseille ; La Garde, Var ; 2018-….) |
Jury : | Président / Présidente : Rosine Cicchetti |
Examinateurs / Examinatrices : Cyril de Runz | |
Rapporteur / Rapporteuse : Pietro Michiardi, Nadine Hilgert |
Mots clés
Résumé
De nos jours, les systèmes modernes sont censés stocker et traiter des séries temporelles massives. Comme le nombre de variables observées augmente très rapidement, leur prédiction devient de plus en plus compliquée, et l’utilisation de toutes les variables pose des problèmes pour les modèles classiques.Les modèles de prédiction sans facteurs externes sont parmi les premiers modèles de prédiction. En vue d’améliorer la précision des prédictions, l’utilisation de multiples variables est devenue commune. Ainsi, les modèles qui tiennent en compte des facteurs externes, ou bien les modèles multivariés, apparaissent, et deviennent de plus en plus utilisés car ils prennent en compte plus d’informations.Avec l’augmentation des données liées entre eux, l’application des modèles multivariés devient aussi discutable. Le challenge dans cette situation est de trouver les facteurs les plus pertinents parmi l’ensemble des données disponibles par rapport à une variable cible.Dans cette thèse, nous étudions ce problème en présentant une analyse détaillée des approches proposées dans la littérature. Nous abordons le problème de réduction et de prédiction des données massives. Nous discutons également ces approches dans le contexte du Big Data.Ensuite, nous présentons une méthodologie complète pour la prédiction des séries temporelles larges. Nous étendons également cette méthodologie aux données très larges via le calcul distribué et le parallélisme avec une implémentation du processus de prédiction proposé dans l’environnement Hadoop/Spark.