Thèse soutenue

Prévention des causes d’accidents à partir des données d’historique des sociétés d’autoroute

FR  |  
EN
Auteur / Autrice : Thomas Véran
Direction : Jean-Marc Petit
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/11/2022
Etablissement(s) : Lyon, INSA
Ecole(s) doctorale(s) : École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche : Membre de : Université de Lyon (2015-....)
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Equipe de recherche : BD - Base de Données - DRIM - Distribution, Recherche d'Information et Mobilité
Jury : Président / Présidente : Florence Sèdes
Examinateurs / Examinatrices : Jean-Marc Petit, Florence Sèdes, Pierre Gançarski, Gabiele Gianini, Julien Jacques, Pierre-Edouard Portier
Rapporteurs / Rapporteuses : Pierre Gançarski, Gabiele Gianini

Résumé

FR  |  
EN

Dans le monde entier, les accidents de la route ont des impacts sociaux et financiers importants. Pour réduire leur fréquence et leur gravité, les modèles de prédiction d’accidents (CPM) sont utilisés pour identifier les segments de route dangereux et fournir des indices exploitables sur les facteurs de risque associés. Les CPM sont soit des modèles statistiques paramétriques interprétables par nature, en particulier des modèles linéaires généralisés (GLM), soit des modèles d’apprentissage automatique avec un nombre important de paramètres sans estimation d’incertitude associée (e.g., ensemble d’arbres de décision, machine à vecteurs de support …). Lorsqu’ils réfléchissent à des décisions à fort enjeu, les experts métier s’attendent à ce que les modèles prédictifs soient à la fois performants et interprétables pour faciliter la mise en place d'actions de sécurité préventives. Dans ces travaux, nous contribuons à améliorer les performances prédictives des modèles paramétriques tout en conservant leur interprétabilité. Nos principales contributions visent à atteindre cet objectif en deux étapes. Tout d'abord, nous introduisons une méthode supervisée pour découvrir une partition des observations originales et construire un modèle hiérarchique au-dessus. Puis, nous introduisons deux approches algorithmiques (viz., un réseau de neurones polynomial, et une extension de la régression symbolique multi-objectif) pour découvrir des transformées non linéaires des variables d'origine. La première étape permet de gérer les corrélations parmi les groupes d'observations ce qui conduit généralement à des améliorations de la qualité des prédictions des modèles et de leur interprétation. La dernière étape, tout en contraignant des transformées simples de variables (par exemple, les interactions de premier ordre), permet aux modèles de capturer une plus grande partie de la variabilité dans la variable cible. Des expériences ont été menées sur un jeu de données de sécurité routière et sur plus de dix jeux de données publics couvrant des problèmes de classification et de régression variés. Les résultats obtenus sont prometteurs étant donné que nos contributions surpassent les modèles interprétables traditionnels et se rapprochent des meilleurs modèles non paramétriques boîtes noires. Enfin, nous illustrons les bénéfices de notre approche en présentant, sur une étude réelle de cas, une application que nous avons conçue pour les experts de la sécurité routière.