Une approche générique pour l'analyse croisant contenu et usage des sites Web par des méthodes de bipartitionnement
Auteur / Autrice : | Malika Charrad |
Direction : | Gilbert Saporta, Gilbert Saporta, Yves Lechevallier |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 22/03/2010 |
Etablissement(s) : | Paris, CNAM en cotutelle avec École Nationale des Sciences de l'Informatique (La Manouba, Tunisie) |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : Centre d'études et de recherche en informatique et communications (Paris) |
Jury : | Président / Présidente : Elisabeth Métais |
Examinateurs / Examinatrices : Mohamed Nadif | |
Rapporteurs / Rapporteuses : Gérard Govaert, Sadok Ben Yahia |
Résumé
Dans cette thèse, nous proposons une nouvelle approche WCUM (Web Content and Usage Mining based approach) permettant de relier l'analyse du contenu à l'analyse de l'usage d'un site Web afin de mieux comprendre le comportement général des visiteurs du site. Ce travail repose sur l'utilisation de l'algorithme CROKI2 de classification croisée implémenté selon deux stratégies d'optimisation différentes que nous comparons à travers des expérimentations sur des données générées artificiellement. Afin de pallier le problème de détermination du nombre de classes sur les lignes et les colonnes, nous proposons de généraliser certains indices proposés initialement pour évaluer les partitions obtenues par des algorithmes de classification simple, aux algorithmes de classification simultanée. Pour évaluer la performance de ces indices nous proposons un algorithme de génération de biclasses artificielles pour effectuer des simulations et valider les résultats. Des expérimentations sur des données artificielles ainsi qu'une application sur des données réelles ont été réalisées pour évaluer l'efficacité de l'approche proposée.