Analyse de données volumineuses dans le domaine du transport
Auteur / Autrice : | Léna Carel |
Direction : | Pierre Alquier |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 08/02/2019 |
Etablissement(s) : | Université Paris-Saclay (ComUE) |
Ecole(s) doctorale(s) : | École doctorale de mathématiques Hadamard (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Economie et Statistique (Palaiseau ; 1993-....) |
établissement opérateur d'inscription : École nationale de la statistique et de l'administration économique (Palaiseau ; 1960-....) | |
Jury : | Président / Présidente : Mathilde Mougeot |
Examinateurs / Examinatrices : Pierre Alquier, Mathilde Mougeot, Latifa Oukhellou, Yohann de Castro | |
Rapporteur / Rapporteuse : Latifa Oukhellou |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
L'objectif de cette thèse est de proposer de nouvelles méthodologies à appliquer aux données du transport public. En effet, nous sommes entourés de plus en plus de capteurs et d'ordinateurs générant d'énormes quantités de données. Dans le domaine des transports publics, les cartes sans contact génèrent des données à chaque fois que nous les utilisons, que ce soit pour les chargements ou nos trajets. Dans cette thèse, nous utilisons ces données dans deux buts distincts. Premièrement, nous voulions être capable de détecter des groupes de passagers ayant des habitudes temporelles similaires. Pour ce faire, nous avons commencé par utilisé la factorisation de matrices non-négatives comme un outil de pré-traitement pour la classification. Puis nous avons introduit l'algorithme NMF-EM permettant une réduction de la dimension et une classification de manière simultanée pour un modèle de mélange de distributions multinomiales. Dans un second temps, nous avons appliqué des méthodes de régression à ces données afin d'être capable de fournir une fourchette de ces validations probables. De même, nous avons appliqué cette méthodologie à la détection d'anomalies sur le réseau.