Thèse soutenue

Prévision et détection d'anomalies sur des séries temporelles dans un contexte dynamique : application à l'analyse de données d'affluence dans les transports en commun

FR  |  
EN
Auteur / Autrice : Kevin Pasini
Direction : Latifa OukhellouAllou Badara Samé
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/05/2021
Etablissement(s) : Université Gustave Eiffel
Ecole(s) doctorale(s) : École doctorale Mathématiques, Sciences et Technologies de l'Information et de la Communication (Champs-sur-Marne, Seine-et-Marne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Génie des Réseaux de Transport Terrestre et Informatique Avancé (Noisy-le-grand, Seine-Saint-Denis) - Laboratoire Génie des Réseaux de Transport Terrestre et Informatique Avancé (Noisy-le-grand, Seine-Saint-Denis)
Jury : Président / Présidente : Martin Trépanier
Examinateurs / Examinatrices : Latifa Oukhellou, Allou Badara Samé, Fabien Moutarde, Romain Billot, Ahlame Douzal-Chouakria, Mostepha Redouane Khouadjia
Rapporteurs / Rapporteuses : Fabien Moutarde, Romain Billot

Résumé

FR  |  
EN

Pour répondre aux enjeux liés à l'augmentation de la demande de mobilité, aux problématiques environnementales et économiques, les transports en commun se sont imposés comme une des composantes essentielles des politiques de mobilité urbaine durable. Ces systèmes de transport permettent en effet de transporter un grand nombre de passagers pour un coût économique raisonnable et une empreinte écologique maitrisée. Cependant, les réseaux de transport en commun font face aujourd’hui à des défis inédits en vue d'augmenter leur attractivité.Les travaux de cette thèse s'inscrivent dans un contexte général qui vise à valoriser des données collectées sur l'infrastructure de transport par la conception d'outils d'analyse permettant d'extraire des informations à haute valeur ajoutée à l'intention des passagers, des analystes de données et des opérateurs de transport. Une première analyse exploratoire des données réelles (données SNCF transilien, et données du métro de Montréal) a permis de mettre en exergue les verrous scientifiques auxquels cette thèse s'est attaquée. Les travaux de thèse comportent deux principaux volets. Le premier porte sur la prédiction court-terme de la charge voyageur dans les trains. La thèse introduit les approches et modèles usuels de prédiction à base d'apprentissage automatique, puis identifie les spécificités du contexte applicatif. La principale difficulté est liée à la variabilité intrinsèque des séries temporelles des charges à prédire, induite par l'influence de plusieurs paramètres dont ceux liés à l’exploitation (horaire, retard, type de mission…) et au contexte (information calendaire, grand évènement, météo, ...). Une autre difficulté est liée à l'échantillonnage temporel irrégulier des séries temporelles à prédire. Formalisé comme un problème de prédiction de séries temporelles avec un échantillonnage irrégulier et évoluant dans un contexte dynamique, la thèse s'intéresse alors à la conception d'un modèle LSTM encodeur-prédicteur capable de résoudre la tâche de prévision en faisant face à ces difficultés. Le modèle proposé est comparé à plusieurs modèles d'apprentissage automatique en se basant sur les performances de prédiction à plusieurs pas de temps.Le deuxième volet de la thèse concerne la détection d'anomalies contextuelles sur des séries temporelles. L'objectif porte sur la détection de l'impact des perturbations sur l'affluence en station. Une spécificité applicative concerne la forte variabilité des séries temporelles qui doit être prise en compte dans l'étape de détection. Les travaux formalisent une approche de détection d'anomalies basée sur l'analyse des résidus de prédiction normalisés par une variance contextuelle estimée par apprentissage automatique. Cette approche vise à construire un score d'anomalie contextuellement robuste permettant de qualifier la déviation dans les séries temporelles en tenant compte de leur variabilité contextuelle. Les travaux sont d'abord évalués sur des données synthétiques. Puis ils sont appliqués sur les données réelles d'affluences en station avec pour objectif de quantifier l'impact des perturbations sur l'affluence en station et de détecter des anomalies inconnues