Thèse soutenue

Traitement continu de requêtes top-k dans les réseaux sociaux

FR  |  
EN
Auteur / Autrice : Abdulhafiz Alkhouli
Direction : Christian Dan Vodislav
Type : Thèse de doctorat
Discipline(s) : STIC (sciences et technologies de l'information et de la communication) - Cergy
Date : Soutenance le 29/09/2017
Etablissement(s) : Cergy-Pontoise
Ecole(s) doctorale(s) : École doctorale Sciences et ingénierie (Cergy-Pontoise, Val d'Oise)
Partenaire(s) de recherche : Laboratoire : Equipes Traitement de l'Information et Systèmes (Cergy-Pontoise, Val d'Oise) - Equipes Traitement de l'Information et Systèmes / ETIS
Jury : Président / Présidente : Salima Benbernou
Examinateurs / Examinatrices : Christian Dan Vodislav, Cédric Du Mouza, Dimitris Kotzinos, Boris Borzic
Rapporteurs / Rapporteuses : Bernd Amann

Résumé

FR  |  
EN

En raison du grand succès des réseaux sociaux, la nature et mode de diffusion del’information sur le Web a changé en faveur de contenus dynamiques diffusés sousforme de flux d’information. Dans le contexte des réseaux sociaux, les utilisateurs peuvent s’abonner à de multiples sources d’information et recevoir continuellement de nouveaux contenus. Or, ce nouveau mode de publication/consommation peut entraîner d’énormes quantités d’information, en surchargeant les utilisateurs. Ainsi,il est essentiel de développer des techniques efficaces de filtrage et de classement qui permettent aux utilisateurs d’être efficacement mis à jour avec le contenu le plus intéressant.Les requêtes top-k sur les flux d’information limitent les résultats au contenu le plus pertinent. Pour améliorer la pertinence des résultats, le modèle de classement des résultats de requêtes devrait tenir compte de divers facteurs de contexte, y compris les facteurs traditionnels basés sur le contenu, les facteurs liés aux utilisateurs et leurs relations (réseau social). Dans le réseau social, le maintien des ensembles de top-k peut être plus difficile car de nombreux événements pourraient changer les messages de top-k tels que le nouveau message, la nouvelle action, le nouvel utilisateur, les modifications de profil, etc. Pour un grand réseau social avec des millions d’utilisateurs et des milliards de messages, le traitement continu des requêtes top-k est l’approche la plus efficace. Cependant, les systèmes actuels pour le traitementcontinu des requêtes top-k échouent lorseque ces systèmes considèrent des modèles de classement riches avec des critères de réseau social. En outre, de tels systèmes ne tiennent pas compte de la diversité des contenus publiés.Dans cette thèse, nous nous concentrons sur le filtrage des flux d’information basé sur le calcul des messages top-k pour chaque utilisateur dans le réseau social. Nous visons à développer un système à large échelle capable d’évaluer efficacement les requêtes top-k continues avec une fonction de classement complexe. Nous proposons l’algorithme SANTA, capable de gérer des fonctions de classement complexes avec des critères sociaux tout en maintenant un traitement continu des requêtes top-k. Nous proposons aussi une variante (SANTA +) qui accélère le traitement d’actions dans les réseaux sociaux. Pour tenire compte de la diversité des contenus publiés, nous proposons l’algorithme DA-SANTA qui étend l’algorithme SANTA pour intégrer la diversité dans le modèle top-k continu tout en maintenant l’efficacité du système. Nos expérimentation sont menées sur des données réelles extraite de Twitter, illustrant les propriétés de nos algorithmes et de montrer leur efficacité.