Thèse soutenue

Segmentation des pages web axée sur les tâches

FR  |  
EN
Auteur / Autrice : Judith Jeyafreeda Andrew
Direction : Stéphane Ferrari
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 15/12/2020
Etablissement(s) : Normandie
Ecole(s) doctorale(s) : École doctorale mathématiques, information et ingénierie des systèmes (Caen)
Partenaire(s) de recherche : établissement de préparation : Université de Caen Normandie (1971-....)
Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
Jury : Président / Présidente : Gaël Dias
Examinateurs / Examinatrices : Stéphane Ferrari, Stéphane Gançarski, Antoine Doucet, Emmanuel Morin, José A. Moreno, Fabrice Maurel, Sriparna Saha
Rapporteurs / Rapporteuses : Stéphane Gançarski, Antoine Doucet

Résumé

FR  |  
EN

Avec le développement régulier de l'internet, l'accessibilité des sites web à tous est essentielle mais l'accessibilité des pages web pour les personnes malvoyantes est un défi en soi. En général, une personne voyante utilise une stratégie de lecture complexe et non linéaire, comme le "skimming", qui consiste à obtenir une vue d'ensemble, et le "scanning", qui consiste à passer d'un domaine d'intérêt à un autre. Les processus d'exploration et de balayage sont basés sur plusieurs facteurs tels que la mise en page, la structure logique et les effets typographiques qui ne sont pas disponibles dans l'environnement non visuel, ce qui rend l'exploration et le balayage plutôt difficile.Le travail présenté dans cette thèse se concentre sur la segmentation des pages web pour rendre possible ces tâches de "skimming" et "scanning" non visuels. Le cadre de TAG THUNDER est utilisé à des fins d'expérimentation.Dans cette thèse, nous proposons une approche par clustering pour la segmentation, afin de satisfaire les critères imposés par la tâche. La technique bien établie de clustering Kmeans a été choisie pour expérimenter plusieurs adaptations guidées par la tâche. Une première variante de l'algorithme de Kmeans a été proposée, appelée F-Kmeans, qui utilise la métaphore de la force physique d'attraction des corps massifs. Nous proposons aussi une nouvelle technique de regroupement guidée par la tâche, intitulée Guided Expansion (GE). Cette technique est une sorte d'expansion hiérarchique où l'expansion de chaque zone (cluster) se fonde sur des décisions locales, contrairement à la méthode Kmeans. GE utilise en particulier une distance entre éléments. Une variante exploitant la mesure de force d'attraction a aussi été testée (F-Guided Expansion).Les algorithmes ont été testés avec différentes positions de graines initiales en suivant les stratégies de lecture utilisées sur le web et en utilisant également des techniques de pré-classement pour identifier les zones probables.Pour les expérimentations, les algorithmes avec les différentes méthodes de positionnement sont testés avec 900 pages web appartenant à trois catégories différentes - 300 pages web du tourisme, 300 pages web du commerce électronique et 300 pages web des actualités. L'évaluation se fait de deux manières - manuelle et automatique. Pour l'évaluation manuelle, un corpus de référence (ground truth) a été créé pour 50 pages web et des mesures de clustering standard sont utilisées pour l'évaluation. Sur la base de l'avis d'experts, des mesures automatiques ont été créées pour permettre l'évaluation automatique sur de grands corpus sans besoin de référence. Dans les évaluations manuelles et automatiques, GE avec des graines positionnées en diagonale s'avère surpasser les autres algorithmes.