Détection d'outliers : modéllsation et prédiction : application aux données de véhicules d'occasion
Auteur / Autrice : | Solohaja Faniaha Dimby |
Direction : | Jean-Marc Bardet, Joseph Rynkiewicz |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques appliquées |
Date : | Soutenance le 21/12/2015 |
Etablissement(s) : | Paris 1 |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : Statistique, analyse, modélisation multidisciplinaire (Paris ; 2010-....) |
Jury : | Président / Présidente : Paul Doukhan |
Examinateurs / Examinatrices : Jean-Marc Bardet, Joseph Rynkiewicz, Daniel Urbah, Cécile Hardouin, Dominique Haughton | |
Rapporteurs / Rapporteuses : Fabrice Gamboa, Patrice Bertail |
Mots clés
Résumé
La société Autobiz édite et diffuse de l’information sur le secteur automobile. Cette thèse contribue à l’enrichissement de cette information et à une meilleure compréhension du marché de l’occasion par l’élaboration des modèles de prédiction du prix des véhicules et du délai de vente qui leur est associé. Nous avons eu à notre disposition une base de données réelles constituée d’annonces de sources diverses induisant un nombre considérable d’outliers. Ainsi, la première partie de travail s’est consacrée à la construction de méthodes de détection d’outliers incluant aussi bien de simples règles empiriques qu’un test statistique dont les propriétés asymptotiques ont été étudiées. Partant d’un état de l’art sur la prédiction des prix des véhicules d’occasion, il est apparu que les études existantes soulèvent le besoin de fonder une méthodologie d’analyse plus rigoureuse. Cette méthodologie a été développée dans un objectif de proposer des solutions automatisables et adaptées aux contraintes imposées par les experts. Nous faisons alors l’hypothèse que les prix des véhicules d’une même version se déprécient en fonction de l’âge et du kilométrage selon une forme qui lui est propre. La dernière partie du travail est dédiée à l’analyse des délais de vente. Dans un premier temps, nous caractérisons la variable associée aux délais de vente. Ensuite nous proposons une modélisation de cette variable par une régression à l’échelle d’un segment correspondant à l’arborescence marque-modèle-carrosserie-énergie en fonction des variables liées au kilométrage, au prix et à l’âge. Enfin, nous discutons de la possibilité de modéliser le nombre de véhicules vendus dans une période donnée selon une loi binomiale négative.