Thèse soutenue

Machine Learning sur les séries temporelles et applications à la prévision des ventes pour l'E-Commerce

FR  |  
EN
Auteur / Autrice : Rémy Garnier
Direction : Paul DoukhanJoseph Rynkiewicz
Type : Thèse de doctorat
Discipline(s) : Mathématiques - EM2PSI
Date : Soutenance le 08/12/2021
Etablissement(s) : CY Cergy Paris Université
Ecole(s) doctorale(s) : École doctorale Économie, Management, Mathématiques, Physique et Sciences Informatiques (Cergy-Pontoise, Val d'Oise)
Partenaire(s) de recherche : Laboratoire : Analyse, géométrie et modélisation (Cergy-Pontoise, Val d'Oise ; 1993-....) - Analyse- Géométrie et Modélisation / AGM - UMR 8088
Jury : Président / Présidente : Gilles Stoltz
Examinateurs / Examinatrices : Paul Doukhan, Joseph Rynkiewicz, Lionel Truquet, Madalina Olteanu, Bruno Goutorbe, Anne Philippe, Jean-Marc Bardet, Karine Bertin, Yannig Goude
Rapporteurs / Rapporteuses : Lionel Truquet, Madalina Olteanu

Résumé

FR  |  
EN

Prédire les futures valeurs de séries temporelles semble pourtant nécessaire dans de nombreux domaines. On trouve ainsi des applications pour contrôler divers processus industriels, pour modéliser des écosystèmes, des phénomènes physiques ou géologiques, ainsi que dans les domaines de la finance, de l'actuariat et des assurances. Dans le cadre de cette thèse, on s'intéresse plus précisément à l'application de méthode de séries temporelles pour la prévision des ventes dans le cadre d'une plateforme d'E-commerce.Il y a deux caractéristiques qui distinguent généralement les problèmes de prévision de séries temporelles stationnaires d'autres problèmes d’apprentissage et qui expliquent en partie les difficultés inhérentes à ces tâches.D'abord, d'un point de vue théorique, les données d'une même série temporelle présentent des dépendances mutuelles. Cela invalide la plupart des approches d’apprentissage classique, qui reposent sur des distributions supposées indépendantes. Cette thèse présente différents cadres pour modéliser et tenir compte de la dépendance entre données. On prouvera donc plusieurs inégalités oracles dans deux cadres dépendants différent . Premièrement, on étudiera l'utilisation de la méthode de sélection de modèle hold-out dans le cadre de séries temporelles dépendantes, et on montrera que cette méthode s'étend bien au cadre dépendant sous des conditions peu restrictives. Deuxièmement, on s’intéressera à la modélisation de phénomènes non-causaux par des processus analogues aux chaines de Markov, et on montrera des inégalités oracle dans ce cadre.D'autre part, d'un point de vue pratique, pour une série temporelle donnée on a généralement un petit nombre de données relativement à d'autres domaines d'application. C'est particulièrement le cas dans le cadre de la prédiction des ventes, où le nombre de date observées est généralement très inférieur au nombre de produits que l'on considère. On proposera donc plusieurs modèles capables de "partager" l'information entre différents produits et de tenir compte des interactions entre eux. En particulier, on s'interessera à la modélisation de phénomènes de compétition entre différentes séries temporelles. On appliquera ces modèles à des données réelles générées par l'entreprise CDiscount.