Machine Learning sur les séries temporelles et applications à la prévision des ventes pour l'E-Commerce
Auteur / Autrice : | Rémy Garnier |
Direction : | Paul Doukhan, Joseph Rynkiewicz |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques - EM2PSI |
Date : | Soutenance le 08/12/2021 |
Etablissement(s) : | CY Cergy Paris Université |
Ecole(s) doctorale(s) : | École doctorale Économie, Management, Mathématiques, Physique et Sciences Informatiques (Cergy-Pontoise, Val d'Oise) |
Partenaire(s) de recherche : | Laboratoire : Analyse, géométrie et modélisation (Cergy-Pontoise, Val d'Oise ; 1993-....) - Analyse- Géométrie et Modélisation / AGM - UMR 8088 |
Jury : | Président / Présidente : Gilles Stoltz |
Examinateurs / Examinatrices : Paul Doukhan, Joseph Rynkiewicz, Lionel Truquet, Madalina Olteanu, Bruno Goutorbe, Anne Philippe, Jean-Marc Bardet, Karine Bertin, Yannig Goude | |
Rapporteurs / Rapporteuses : Lionel Truquet, Madalina Olteanu |
Mots clés
Résumé
Prédire les futures valeurs de séries temporelles semble pourtant nécessaire dans de nombreux domaines. On trouve ainsi des applications pour contrôler divers processus industriels, pour modéliser des écosystèmes, des phénomènes physiques ou géologiques, ainsi que dans les domaines de la finance, de l'actuariat et des assurances. Dans le cadre de cette thèse, on s'intéresse plus précisément à l'application de méthode de séries temporelles pour la prévision des ventes dans le cadre d'une plateforme d'E-commerce.Il y a deux caractéristiques qui distinguent généralement les problèmes de prévision de séries temporelles stationnaires d'autres problèmes d’apprentissage et qui expliquent en partie les difficultés inhérentes à ces tâches.D'abord, d'un point de vue théorique, les données d'une même série temporelle présentent des dépendances mutuelles. Cela invalide la plupart des approches d’apprentissage classique, qui reposent sur des distributions supposées indépendantes. Cette thèse présente différents cadres pour modéliser et tenir compte de la dépendance entre données. On prouvera donc plusieurs inégalités oracles dans deux cadres dépendants différent . Premièrement, on étudiera l'utilisation de la méthode de sélection de modèle hold-out dans le cadre de séries temporelles dépendantes, et on montrera que cette méthode s'étend bien au cadre dépendant sous des conditions peu restrictives. Deuxièmement, on s’intéressera à la modélisation de phénomènes non-causaux par des processus analogues aux chaines de Markov, et on montrera des inégalités oracle dans ce cadre.D'autre part, d'un point de vue pratique, pour une série temporelle donnée on a généralement un petit nombre de données relativement à d'autres domaines d'application. C'est particulièrement le cas dans le cadre de la prédiction des ventes, où le nombre de date observées est généralement très inférieur au nombre de produits que l'on considère. On proposera donc plusieurs modèles capables de "partager" l'information entre différents produits et de tenir compte des interactions entre eux. En particulier, on s'interessera à la modélisation de phénomènes de compétition entre différentes séries temporelles. On appliquera ces modèles à des données réelles générées par l'entreprise CDiscount.