Thèse soutenue

Evaluation des systèmes de recommandation à partir d'historiques de données

FR
Auteur / Autrice : Bruno Pradel
Direction : Patrick Gallinari
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance en 2013
Etablissement(s) : Paris 6

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Cette thèse présente différents protocoles d'évaluations permettantune meilleure estimation des erreurs de systèmes de recommandationsconstruits à partir d'historiques de données d'utilisateurs (ie sansinteractions directes avec les utilisateurs du système). Dans un premier chapitre de contribution, nous présentons lesrésultats d'une étude de cas d'un système de recommandation uniquementbasé sur les données d'achats d'un magasin de bricolage. Larecommandation est une tâche complexe qui à été souvent assimiléeuniquement à tache de prédiction de notes. Dans cette étude, nouscherchons à prédire les achats qu'un client va effectuer et non lanote qu'il attribuerait à un produit. Les données de notes étantindisponibles pour bon nombre d'industriels, cela correspond à uneapplication fréquemment rencontrée en pratique mais pourtant rarementtraitée dans la littérature. Dans ce cadre, nous évaluons lesperformances de plusieurs algorithmes de filtrage collaboratif del'état de l'art. Nous montrons comment certaines modifications desprotocoles d'apprentissages et de tests, ainsi que l'apportd'information de contexte, aboutit à de fortes variations desperformances entre algorithmes et à une sélection de modèle différente. Dans les chapitres suivants, nous abordons la problématique del'évaluation d'algorithmes de filtrage collaboratif à partir denotes. Dans un deuxième chapitre, nous détaillons notre participationau challenge de recommandation contextuelle de films CAMRa. Cechallenge propose deux modifications du protocole classique deprédiction de notes: les algorithmes sont évalués en considérant desmesures d'ordonnancement et les notes sont échantillonnées en test demanière temporelle sur deux périodes spécifiques de l'année: lasemaine de Noël et de la cérémonie des Oscars. Nous proposons unalgorithme de recommandations personnalisées qui prend en compte lesvariations temporelles de la popularité des items. La dernière contribution de cette thèse étudie l'influence duprocessus d'observations des notes sur les mesures de performancesTopK (rappel/ précision). Les utilisateurs choisissent les itemsqu'ils veulent noter, ainsi les notes sont obtenues par un processusd'observations non aléatoires. D'une part, certains items reçoiventbeaucoup plus de notes que les autres, et d'autre part, les notes''positives'' sont sur-observés car les utilisateurs notent plusfréquemment les items qu'ils aiment. Nous proposons une analysethéorique de ces phénomènes et présentons également des résultatsd'expériences effectuées à l'aide de données Yahoo! réunissant desnotes collectées à la fois de manière classique et de manièrealéatoire. Nous montrons notamment qu'une prise en compte des notesmanquantes comme négatives en apprentissage aboutit à de bonnesperformances sur les mesures TopK, mais que ces performances peuventêtre trompeuses en favorisant des algorithmes modélisant la popularitédes items plus que les réelles préférences des utilisateurs.