Apprendre à enchérir : prédiction d'évènement rare et choix de stratégie
Auteur / Autrice : | Slimane Makhlouf |
Direction : | Avner Bar-Hen, François-Xavier Jollois |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 19/04/2023 |
Etablissement(s) : | Paris, HESAM |
Ecole(s) doctorale(s) : | École doctorale Sciences des métiers de l'ingénieur (Paris) |
Partenaire(s) de recherche : | établissement de préparation de la thèse : Conservatoire national des arts et métiers (France ; 1794-....) |
Laboratoire : Centre d'études et de recherche en informatique et communications (Paris) | |
Jury : | Président / Présidente : Samia Bouzefrane |
Examinateurs / Examinatrices : Avner Bar-Hen, François-Xavier Jollois, Samia Bouzefrane, Cyril de Runz, Fatma Bouali, Nicolas Travers, Catherine Faron | |
Rapporteurs / Rapporteuses : Cyril de Runz, Fatma Bouali |
Mots clés
Résumé
Cette thèse porte sur l'amélioration des campagnes enchères pour l'affichage publicitaire en ligne. Nous considérons le problème à travers deux grandes questions : la prédiction de la probabilité de clic permettant d'obtenir une estimation de la valeur d'un affichage, et l'optimisation des enchères qui doit, en se basant sur cette estimation, gérer les montants des ordres et le budget afin d'obtenir le maximum de clics possibles.Les clics sur des publicités en ligne sont des événements rares. La prédiction de ce type d'événements requière l'utilisation de modèles et de fonctions d'évaluation spécifiques. Nous étudions ces performances sous plusieurs fonctions d'évaluation nous permettant de montrer certains biais induits par les mesures de performances classiques. Nous présentons une mesure de performance spécifique au RTB permettant de corriger les biais liés aux événements rares.Nous étudions les performances de plusieurs stratégies d'enchère et montrons que l'apprentissage par renforcement n'apporte pas d'amélioration significative par rapport aux autres approches entre autre à cause des problèmes de convergence de ce type d'approche notamment dues à la formulation des états du processus de décision markovien.Nous présentons une étude sur la convergence de l'apprentissage par renforcement et l'apprentissage de la formulation des états. Nous explorons l'utilisation d'autoencoders afin de synthétiser une formulation des états qui permettrait une meilleure convergence de l'apprentissage par renforcement.