Thèse soutenue

Détection de fraude par carte de crédit à l'aide de l'apprentissage automatique avec intégration des connaissances contextuelles

FR  |  
EN
Auteur / Autrice : Yvan Lucas
Direction : Sylvie CalabrettoMichael Granitzer
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/12/2019
Etablissement(s) : Lyon en cotutelle avec Universität Passau (Allemagne)
Ecole(s) doctorale(s) : École doctorale InfoMaths (Lyon ; 2009-....)
Partenaire(s) de recherche : établissement opérateur d'inscription : Institut national des sciences appliquées (Lyon ; 1957-....)
Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
Equipe de recherche : Distribution, Recherche d'Information et Mobilité
Jury : Président / Présidente : Gabriele Gianini
Examinateurs / Examinatrices : Sylvie Calabretto, Michael Granitzer, Gabriele Gianini, Eric Gaussier, Chantal Soulé-Dupuy, Léa Laporte, Mathias Lux, Pierre-Edouard Portier
Rapporteurs / Rapporteuses : Eric Gaussier, Chantal Soulé-Dupuy

Résumé

FR  |  
EN

La détection de fraude par carte de crédit présente plusieurs caractéristiques qui en font une tâche difficile. Tout d'abord, les attributs décrivant une transaction ignorent les informations séquentielles. Deuxièmement, les comportements d'achat et les stratégies de fraude peuvent changer au fil du temps, rendant progressivement une fonction de décision apprise par un classifieur non pertinente. Nous avons effectué une analyse exploratoire afin de quantifier le dataset shift jour par jour et avons identifé des périodes calendaires qui ont des propriétés différentes au sein du jeu de données. La stratégie principale pour intégrer des informations séquentielles consiste à créer un ensemble d'attributs qui sont des statistiques descriptives obtenues en agrégeant les séquences de transactions des titulaires de carte. Nous avons utilisé cette méthode comme méthode de référence pour la détection des fraudes à la carte de crédit. Nous avons proposé une stratégie pour la création d'attributs basés sur des modèles de Markov cachés (HMM) caractérisant la transaction par différents points de vue afin d'intégrer un large spectre d'informations séquentielles au sein des transactions. En fait, nous modélisons les comportements authentiques et frauduleux des commerçants et des détenteurs de cartes selon deux caractéristiques univariées: la date et le montant des transactions. Notre approche à perspectives multiples basée sur des HMM permet un prétraitement automatisé des données pour modéliser les corrélations temporelles. Des expériences menées sur un vaste ensemble de données de transactions de cartes de crédit issu du monde réel (46 millions de transactions effectuées par des porteurs de carte belges entre mars et mai 2015) ont montré que la stratégie proposée pour le prétraitement des données basé sur les HMM permet de détecter davantage de transactions frauduleuses quand elle est combinée à la stratégie de prétraitement des données par aggrégations.