Thèse de doctorat en Mathématiques appliquées
Sous la direction de Jean-Michel Loubès et de Philippe Besse.
Soutenue le 18-11-2016
à Toulouse 3 , dans le cadre de École doctorale Mathématiques, informatique et télécommunications (Toulouse) , en partenariat avec Institut de mathématiques de Toulouse (2007-....) (laboratoire) .
Cette thèse s'intéresse à l'apprentissage pour données massives. On considère en premier lieu, des trajectoires définies par des séquences de géolocalisations. Une nouvelle mesure de distance entre trajectoires (Symmetrized Segment-Path Distance) permet d'identifier par classification hiérarchique des groupes de trajectoires, modélisés ensuite par des mélanges gaussiens décrivant les déplacements par zones. Cette modélisation est utilisée de façon générique pour résoudre plusieurs types de problèmes liés aux trafic routier : prévision de la destination finale d'une trajectoire, temps d'arrivée à destination, prochaine zone de localisation. Les exemples analysés montrent que le modèle proposé s'applique à des environnements routiers différents et, qu'une fois appris, il s'applique à des trajectoires aux propriétés spatiales et temporelles différentes. En deuxième lieu, les environnements technologiques d'apprentissage pour données massives sont comparés sur des cas d'usage industriels.
Machine learning : Application to road traffic as structured data and to Big Data
This thesis focuses on machine learning techniques for application to big data. We first consider trajectories defined as sequences of geolocalized data. A hierarchical clustering is then applied on a new distance between trajectories (Symmetrized Segment-Path Distance) producing groups of trajectories which are then modeled with Gaussian mixture in order to describe individual movements. This modeling can be used in a generic way in order to resolve the following problems for road traffic : final destination, trip time or next location predictions. These examples show that our model can be applied to different traffic environments and that, once learned, can be applied to trajectories whose spatial and temporal characteristics are different. We also produce comparisons between different technologies which enable the application of machine learning methods on massive volumes of data.
Il est disponible au sein de la bibliothèque de l'établissement de soutenance.
Cette thèse a donné lieu à une publication en 2016 par Université Paul Sabatier, Toulouse 3 à Toulouse
Apprentissage statistique : application au trafic routier à partir de données structurées et aux données massives