Thèse soutenue

Détection d'outliers : modéllsation et prédiction : application aux données de véhicules d'occasion

FR  |  
EN
Auteur / Autrice : Solohaja Faniaha Dimby
Direction : Jean-Marc BardetJoseph Rynkiewicz
Type : Thèse de doctorat
Discipline(s) : Mathématiques appliquées
Date : Soutenance le 21/12/2015
Etablissement(s) : Paris 1
Ecole(s) doctorale(s) : École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....)
Partenaire(s) de recherche : Laboratoire : Statistique, analyse, modélisation multidisciplinaire (Paris ; 2010-....)
Jury : Président / Présidente : Paul Doukhan
Examinateurs / Examinatrices : Jean-Marc Bardet, Joseph Rynkiewicz, Daniel Urbah, Cécile Hardouin, Dominique Haughton
Rapporteurs / Rapporteuses : Fabrice Gamboa, Patrice Bertail

Résumé

FR  |  
EN

La société Autobiz édite et diffuse de l’information sur le secteur automobile. Cette thèse contribue à l’enrichissement de cette information et à une meilleure compréhension du marché de l’occasion par l’élaboration des modèles de prédiction du prix des véhicules et du délai de vente qui leur est associé. Nous avons eu à notre disposition une base de données réelles constituée d’annonces de sources diverses induisant un nombre considérable d’outliers. Ainsi, la première partie de travail s’est consacrée à la construction de méthodes de détection d’outliers incluant aussi bien de simples règles empiriques qu’un test statistique dont les propriétés asymptotiques ont été étudiées. Partant d’un état de l’art sur la prédiction des prix des véhicules d’occasion, il est apparu que les études existantes soulèvent le besoin de fonder une méthodologie d’analyse plus rigoureuse. Cette méthodologie a été développée dans un objectif de proposer des solutions automatisables et adaptées aux contraintes imposées par les experts. Nous faisons alors l’hypothèse que les prix des véhicules d’une même version se déprécient en fonction de l’âge et du kilométrage selon une forme qui lui est propre. La dernière partie du travail est dédiée à l’analyse des délais de vente. Dans un premier temps, nous caractérisons la variable associée aux délais de vente. Ensuite nous proposons une modélisation de cette variable par une régression à l’échelle d’un segment correspondant à l’arborescence marque-modèle-carrosserie-énergie en fonction des variables liées au kilométrage, au prix et à l’âge. Enfin, nous discutons de la possibilité de modéliser le nombre de véhicules vendus dans une période donnée selon une loi binomiale négative.