Nouveaux algorithmes et méthodes d’exploration-exploitation pour des systèmes de recommandations efficaces
Auteur / Autrice : | Romain Warlop |
Direction : | Jérémie Mary, Alessandro Lazaric |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique et applications |
Date : | Soutenance le 19/10/2018 |
Etablissement(s) : | Université de Lille (2018-2021) |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur (Lille ; 1992-2021) |
Partenaire(s) de recherche : | Laboratoire : Centre de Recherche en Informatique, Signal et Automatique de Lille |
Résumé
Cette thèse, réalisée en entreprise en tant que thèse CIFRE dans l'entreprise fifty-five, étudie les algorithmes des systèmes de recommandation. Nous avons proposé trois nouveaux algorithmes améliorant l'état de l'art que ce soit en termes de performance ou de prise en compte des contraintes industrielles. Pour cela nous avons proposé un premier algorithme basé sur la factorisation de tenseur, généralisation de la factorisation de matrice couramment appliquée en filtrage collaboratif.Nous avons ensuite proposé un algorithme permettant d'améliorer l'état de l'art des solutions de complétion de paniers. L'objectif des algorithmes de complétion de paniers est de proposer à l'utilisateur un nouveau produit à ajouter au panier qu'il/elle est en train d'acheter permettant ainsi d'augmenter la valeur d'un utilisateur. Pour cela nous nous sommes appuyés sur les processus ponctuels déterminantal. Nous avons généralisé l'approche de la complétion de paniers par DPP en utilisant une approche tensorielle. Enfin nous avons proposé un algorithme d'apprentissage par renforcement permettant d'alterner entre différents algorithmes de recommandation. En effet, utiliser toujours le même algorithme peut avoir tendance à ennuyer l'utilisateur pendant un certain temps, ou à l'inverse lui donner de plus en plus confiance en l'algorithme. Ainsi la performance d'un algorithme donné n'est pas stationnaire et dépend de quand et à quelle fréquence celui-ci a été utilisé. Notre algorithme d'apprentissage par renforcement apprend en temps réel à alterner entre divers algorithmes de recommandations dans le but de maximiser les performances sur le long terme.