Prédiction des réponses utilisateurs à une campagne de publicité mobile

par Faustine Bousquet

Thèse de doctorat en Biostatistique

Sous la direction de Christian Lavergne.

Thèses en préparation à Montpellier , dans le cadre de École Doctorale Information, Structures, Systèmes , en partenariat avec IMAG - Institut Montpelliérain Alexander Grothendieck (laboratoire) .


  • Résumé

    La prédiction du taux de clics (CTR) est l'un des défis majeurs de la publicité en ligne au cours de ces dernières années. L'objectif de notre travail est de répondre à un encart publicitaire disponible via un système d'enchère en proposant la publicité la plus pertinente possible. En d'autres termes : il s'agit d'être en mesure de proposer la bonne publicité à la bonne personne au bon moment. Cet objectif prend en considération deux enjeux principaux. Le premier concerne la caractérisation des données à disposition qui sont de natures volumineuses, hétérogènes et clairsemées. Le second objectif concerne la mise en production du modèle : le modèle doit pouvoir être utilisé en temps réel et son déploiement doit être simple à mettre en œuvre. Nous introduisons ici une nouvelle méthode de prédiction du CTR qui repose sur un mélange de modèles linéaires généralisés (GLM). Nous développons tout d'abord une méthode de clustering basée sur un modèle prenant en considération l'aspect longitudinal (afin d'exploiter l'historique de chaque campagne) et non gaussien (la métrique d'intérêt est un taux) des observations du CTR dans les campagnes publicitaires. Cette étape préliminaire permet de grouper les campagnes ayant des profils similaires et offre ainsi une meilleure description des données. Le package R binomialMix disponible sur le CRAN implémente cette approche pour le mélange de données binomiales et longitudinales. Par la suite, en s'appuyant directement sur les clusters inférés, nous proposons un modèle prédictif qui permet de répondre au sujet central de notre problématique métier : estimer une probabilité de clic pour toute campagne en temps réel. Plusieurs modèles sont mis en compétition : des modèles naïfs et un modèle simple de GLM sont ainsi comparés à plusieurs modèles qui se basent sur les résultats du clustering. Deux modèles (parmi ceux qui utilisent les résultats du modèle de mélange) se distinguent par leurs performances prédictives. Des expérimentations menées sur données simulées et réelles ont montré l'importance de l'étape préliminaire de classification non supervisée sur la qualité de la prédiction. L'ensemble de ces étapes a ainsi pu être industrialisé et intégré dans le processus d'enchère déjà existant. Cette intégration est la succession d'un ensemble d'étapes : la récupération des données, leur prétraitement, l'estimation des paramètres du mélange à partir de variables explicatives soigneusement choisies et enfin, la mise en place du modèle prédictif. Un dernier travail a permis l'exploitation des prédictions à partir des probabilités de clic obtenues en sortie des modèles prédictifs. Ainsi, nous avons pu prédire le CTR en temps réel sur la plateforme d'enchère et pour chaque espace publicitaire disponible qui y transite. L'analyse des premiers résultats en production montre que, pour certains contextes d'enchère, l'utilisation du modèle prédictif, couplé à l'étape de clustering au préalable, a permis une amélioration significative du taux de clics.

  • Titre traduit

    Predicting user responses to a mobile advertising campaign


  • Résumé

    Click through rate (CTR) prediction is one of the most important challenges in the advertising field over the last years. The objective of our work is to respond to an ad placement via an auction system and with the most relevant content for the person who sees it, at an optimal price. In other words: we want to be able to offer the right ad to the right person at the right time. This objective takes into consideration two main issues. The first concerns the characterization of the available data, which is voluminous, heterogeneous and sparse in nature. The second objective concerns the production of the model, which must be carried out via an easy-to-implement deployment and used in real time. We introduce here a new method of CTR prediction based on a mixture of Generalized Linear Models (GLM). We first develop a clustering method based on a model that takes into account the longitudinal (in order to exploit the history of each campaign) and non-Gaussian (the metric of interest is a rate) aspect of CTR observations. This preliminary step of unsupervised classification offers a better description of the data and allows to group campaigns with similar profiles. The binomialMix R package available on CRAN implements this approach for a mixture of binomial and longitudinal data. Subsequently, by relying directly on the inferred clusters, we develop a predictive model that enables us to address the central issue of our business: estimating the probability of clicks for all campaigns in real time. Several models are put in competition: two naive models and a simple GLM model are compared to several models based on clustering results. Two models (among those using the results of the mixture model) stand out in terms of logloss (predictive performance metric with which we compared the different models). Experiments conducted on simulated and real data have shown the importance of the preliminary unsupervised classification step on the quality of prediction. All of these steps were thus industrialized and integrated into the existing auction process. This integration is the succession of a set of steps: data retrieval, data pre-processing, estimation of the mixture parameters from carefully chosen explanatory variables, and finally, implementation of the predictive model. A last work enabled the exploitation of predictions obtained by the output of the click probabilities predictive models. Thus, we were able to predict the CTR in real time on the auction platform and for each available ad placement that transits through it. The analysis of the first production results shows that, for certain auction contexts, the use of the predictive model, coupled with the clustering step beforehand, has led to a significant improvement in the click rate.