Thèse soutenue

Partitionnement éphémère pour la recherche d'images Web en dispositifs nomades

FR  |  
EN
Auteur / Autrice : José G. Moreno
Direction : Gaël Dias
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance en 2014
Etablissement(s) : Caen
Ecole(s) doctorale(s) : École doctorale structures, informations, matière et matériaux (Caen ; 1992-2016)
Partenaire(s) de recherche : Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....)
Jury : Président / Présidente : Béatrice Daille
Examinateurs / Examinatrices : Gaël Dias, Béatrice Daille, Massih-Reza Amini, Adam Jatowt, Olivier Ferret, Guillaume Cleuziou, Marc Spaniol
Rapporteur / Rapporteuse : Massih-Reza Amini, Adam Jatowt

Résumé

FR  |  
EN

Dans cette thèse, nous présentons une étude sur la visualisation des résultats Web d'images sur les dispositifs nomades. Nos principales conclusions ont été inspirées par les avancées récentes dans deux principaux domaines de recherche – la recherche d'information et le traitement automatique du langage naturel. Tout d’abord, nous avons examiné différents sujets tels que le regroupement des résultats Web, les interfaces mobiles, la fouille des intentions sur une requête, pour n'en nommer que quelques-uns. Ensuite, nous nous sommes concentré sur les mesures d'association lexical, les métriques de similarité d'ordre élevé, etc. Notamment afin de valider notre hypothèse, nous avons réalisé différentes expériences avec des jeux de données spécifiques de la tâche. De nombreuses caractéristiques sont évaluées dans les solutions proposées. Premièrement, la qualité de regroupement en utilisant à la fois des métriques d'évaluation classiques, mais aussi des métriques plus récentes. Deuxièmement, la qualité de l'étiquetage de chaque groupe de documents est évaluée pour s'assurer au maximum que toutes les intentions des requêtes sont couvertes. Finalement, nous évaluons l'effort de l'utilisateur à explorer les images dans une interface basée sur l'utilisation des galeries présentées sur des dispositifs nomades. Un chapitre entier est consacré à chacun de ces trois aspects dans lesquels les jeux de données - certains d'entre eux construits pour évaluer des caractéristiques spécifiques - sont présentés. Comme résultats de cette thèse, nous sommes développés : deux algorithmes adaptés aux caractéristiques du problème, deux jeux de données pour les tâches respectives et un outil d'évaluation pour le regroupement des résultats d'une requête (SRC pour les sigles en anglais). Concernant les algorithmes, Dual C-means est notre principal contribution. Il peut être vu comme une généralisation de notre algorithme développé précédemment, l'AGK-means. Les deux sont basés sur des mesures d'association lexical à partir des résultats Web. Un nouveau jeu de données pour l'évaluation complète d'algorithmes SRC est élaboré et présenté. De même, un nouvel ensemble de données sur les images Web est développé et utilisé avec une nouvelle métrique à fin d'évaluer l'effort fait pour les utilisateurs lors qu'ils explorent un ensemble d'images. Enfin, nous avons développé un outil d'évaluation pour le problème SRC, dans lequel nous avons mis en place plusieurs mesures classiques et récentes utilisées en SRC. Nos conclusions sont tirées compte tenu des nombreux facteurs qui ont été discutés dans cette thèse. Cependant, motivés par nos conclusions, des études supplémentaires pourraient être développés. Celles-ci sont discutées à la fin de ce manuscrit et notre résultats préliminaires suggère que l’association de plusieurs sources d'information améliore déjà la qualité du regroupement.