Evaluation de requêtes top-k continues à large-échelle
Auteur / Autrice : | Despoina Vouzoukidou |
Direction : | Bernd Amann |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 17/09/2015 |
Etablissement(s) : | Paris 6 |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'Informatique de Paris 6 / LIP6 |
Jury : | Examinateurs / Examinatrices : Sihem Amer-Yahia, Evaggelia Pitoura, Dan Vodislav, Themis Palpanas, Ludovic Denoyer, Vassilis Christophides |
Mots clés
Mots clés contrôlés
Résumé
Dans cette thèse, nous nous intéressons à l'évaluation efficace de requêtes top-k continues sur des flux d'informations textuelles avec des feedbacks utilisateurs. La première contribution est une généralisation des modèles de requêtes top-k continues proposés dans l'état de l'art. Cette généralisation est fondée sur une famille des scores non-homogènes définis comme une combinaison linéaire de scores d'importance de l'information (indépendants des requêtes) et de scores de pertinence du contenu avec une décroissance continue de score reflétant la fraîcheur de l'information. La deuxième contribution est la définition et la mise en ¿uvre de structures de données en mémoire pour l'indexation et l'évaluation de cette nouvelle famille de requêtes top-k continues. Nos expériences montrent que notre solution est évolutive et, limitées aux fonctions homogènes, surpasse les performances d'autres solutions. Dans la deuxième partie de cette thèse, nous considérons le problème de l'intégration des signaux de feedback à notre famille de scores non-homogènes. Nous proposons un nouveau cadre général pour l'évaluation de ces requêtes du "web en temps réel" (real-time web queries) avec un ensemble d'algorithmes minimisant le coût d'évaluation d'un signal de feedback utilisateur dynamique sur un item d'information. Enfin, nous présentons MeowsReader, notre prototype de recommandation d'actualités qui intègre l'ensemble des résultats obtenus et illustre comment une classe générale de requêtes continues top-k propose une abstraction appropriée pour la modélisation et le filtrage continu d'information sur le web "temps-réel".