Thèse soutenue

Framework de gestion sémantique de flux d'actualités

FR  |  
EN
Auteur / Autrice : Fekade Getahun Taddesse
Direction : Kokou YétongnonRichard Chbeir
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 30/11/2010
Etablissement(s) : Dijon
Ecole(s) doctorale(s) : École doctorale E2S Environnements, Santé, STIC (Dijon ; ....-2012)
Partenaire(s) de recherche : Laboratoire : Laboratoire Electronique, Informatique et Image (LE2i) (Dijon, Côte d'Or ; Auxerre, Yonne ; Chalon-sur-Saône, Saône-et-Loire ; Le Creusot, Saône-et-Loire ; 1996-2018)
Jury : Président / Présidente : Bernd Amann
Rapporteur / Rapporteuse : Ahmed Lbath, Lionel Brunie

Résumé

FR  |  
EN

Dans le monde du Web, on retrouve les formats RSS et Atom (feeds) qui sont, sans doute, les formats XML les plus populaires et les plus utilisés. Ces formats permettent aux, entre autres, communautés Web, industriels, et services web de publier et d’échanger des documents XML. En outre, ils permettent à un utilisateur de consulter librement des données/informations sans avoir à basculer d’un site à un autre, et cela à l'aide d’applications logicielles. Dans ce cas, l'utilisateur enregistre ses fournisseurs de flux favoris, chaque fournisseur diffuse la liste des nouveaux éléments qui ont été modifiés depuis le dernier téléchargement. Cependant, l'enregistrement d'un certain nombre de sources de flux dans un agrégateur de flux engendre à la fois des problèmes d'hétérogénéité (à cause des différences structurelles et de contenu) et des problèmes de surcharges d’information. Par ailleurs, aucun des agrégateurs de flux existants n’offre une approche qui intègre (ou fusionne) les flux en tenant compte de leurs similarités, du contexte de l’utilisateur et de ses préférences. Dans cette thèse, nous proposons un framework formel qui permet de traiter l'hétérogénéité, l'intégration et l'interrogation des flux d’actualités. Ce framework est fondé sur une représentation arborescente d'un flux et possède trois éléments principaux qui sont les suivants: comparateur de flux, intégrateur de flux, et processeur de requêtes. Le comparateur de flux permet de mesurer le degré de similarité entre deux éléments/flux en utilisant une base de connaissance intégrant une approche ascendante et progressive. Nous proposons une mesure de similarité à base de concept capable de calculer la similarité entre les flux selon le nombre de leurs concepts communs (et différents) et leurs proximités sémantiques. Nous montrons également comment définir et identifier la relation exclusive entre deux textes ou éléments. L’intégrateur de flux permet de fusionner plusieurs flux provenant de différentes sources tout en tenant compte du contexte de l’utilisateur. Nous montrons dans notre étude comment représenter le contexte d’utilisateur ainsi que ses préférences. Nous fournissons un ensemble prédéfini de règles de fusion qui peuvent être enrichies et adaptées par chaque utilisateur. Quant au processeur de requêtes, il se base sur une étude formelle et plus précisément sur une algèbre dédiée à la fusion des flux continus d’actualités que nous proposons ici. Les opérateurs proposés dans cette algèbre sont aidés par des fonctions à base de similarité. Nous catégorisons les opérateurs de flux selon trois catégories: opérateurs d'extraction, opérateurs ensemblistes et opérateur de fusion. Nous montrons que l’opérateur de fusion généralise l’opération de jointure et les opérateurs ensemblistes. Nous fournissons également un ensemble de règles de réécriture et d'équivalence de requêtes pour la simplification et l’optimisation des requêtes. Enfin, nous présentons un prototype nommé «Easy RSS Manager» (EasyRSSManager). Ce prototype est un lecteur sémantique de flux et un composant sémantique pour l’interrogation des fenêtres de flux. EasyRSSManager a été utilisé pour valider, démontrer et tester la faisabilité des différentes propositions de notre étude. En particulier, nous avons testé la complexité en temps et la pertinence de nos approches en utilisant à la fois des données réelles et syntaxiques.