Thèse soutenue

Une approche bayésienne pour la modélisation de l'Uplift : application sur des données biaisées

FR  |  
EN
Auteur / Autrice : Mina Rafla
Direction : Bruno Crémilleux
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 06/11/2023
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
établissement co-accrédité : Université de Caen Normandie (1971-....)
Jury : Président / Présidente : Philippe Leray
Examinateurs / Examinatrices : Sihem Amer-Yahia, Szymon Jaroszewicz, Nicolas Voisine, Marie-Jeanne Lesot, Tias Guns
Rapporteurs / Rapporteuses : Sihem Amer-Yahia, Szymon Jaroszewicz

Résumé

FR  |  
EN

La modélisation de l'uplift vise à estimer l'impact incrémental d'un traitement, tel qu'une campagne marketing ou un médicament, sur le comportement d'un individu. Ces approches sont très utiles dans de nombreuses applications, comme la médecine personnalisée et la publicité, car elles permettent de cibler la proportion spécifique d'une population sur laquelle le traitement aura le plus grand impact. La modélisation de l'uplift est une tâche ardue car les données sont partiellement connues (pour un individu, les réponses aux traitements alternatifs ne peuvent pas être observées).Cette thèse est une contribution au domaine de la modélisation de l'uplift. Elle a été réalisée en collaboration avec la société française de télécommunications \textit{Orange}.Plus précisément, ce travail traite de trois défis majeurs :1- La paramétrisation des algorithmes existants de modélisation de l'uplift.2- Le biais des données de l'uplift.3- La haute dimensionalité des données de l'uplift.Nous surmontons ces défis en proposant une approche bayésienne sans paramètre pouvant être appliquée à une variété d'algorithmes d'uplift. Grâce à cette méthode, nous introduisons d'abord une approche de discrétisation bayésienne de l'uplift utilisable pour le prétraitement des données. Nous l'étendons ensuite à la sélection des variables. Nous démontrons que les méthodes de transformation de variables et de sélection de variables que nous proposons sont efficaces pour la modélisation de l'uplift.Par la suite, nous présentons un nouvel arbre de décision bayésien sans paramètre utilisateur, que nous appelons UB-DT. UB-DT transforme le problème d'apprentissage de l'arbre de décision en un problème d'optimisation, avec pour objectif de trouver l'arbre de décision le plus probable étant donné les données. De plus, nous étendons UB-DT aux forêts aléatoires et démontrons sa performance par des évaluations expérimentales.Pour traiter le défi du biais de sélection, nous avons élaboré une étude de simulation pour générer délibérément un biais de non-affectation aléatoire dans les jeux de données d'uplift. Ceci nous a permis de tester rigoureusement nos méthodes ainsi que les solutions existantes de pointe face à ce type de biais.Finalement, nous avons réalisé des évaluations approfondies de nos techniques proposées en utilisant des jeux de données télécom réels. Chaque méthode a été évaluée individuellement et en combinaison.