Diversité par clustering pour la recherche d'images : étude expérimentale
Auteur / Autrice : | Christian Antonio Kuoman Mamani |
Direction : | Marcin Detyniecki |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 31/08/2015 |
Etablissement(s) : | Paris 6 |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris (1992-...) |
Partenaire(s) de recherche : | Laboratoire : LIP6 (1997-....) |
Jury : | Examinateurs / Examinatrices : Sabrina Tollari, Matthieu Cord, Adrian Popescu |
Rapporteur / Rapporteuse : Philippe Mulhem, Bogdan-Emanuel Ionescu |
Mots clés
Résumé
Les moteurs traditionnels offrent à l'utilisateur des résultats de plus en plus pertinents, mais, dans la plupart des cas, les résultats similaires ont tendance à se regrouper. L'utilisateur peut être intéressé pour retrouver des documents qui soient certes tous pertinents par rapport à sa requête, mais aussi qui soient différents les uns des autres. Dans cette thèse, nous considérons le problème de la diversité pour la recherche d'images. Nous avons focalisé notre attention sur la diversité par l'exploitation du clustering, plus spécialement par une approche hiérarchique (AHC), car sa hiérarchie de clusters peut bien correspondre à la nature hiérarchique de la diversité. De plus, nous proposons une nouvelle approche pour exploiter des ressources plus riches, telle qu'une « arborescence de concepts », pour augmenter la diversité. Différentes approches sont comparées sur trois benchmarks : un qui a été annoté manuellement et qui possède une haute pertinence; et deux publics assez différents et plus généraux. Les résultats montrent que l'exploitation hiérarchique des résultats de l'AHC augmente la diversité en comparaison avec des méthodes de clustering plat standard et avec une méthode de diversité par optimisation. Les résultats montrent aussi l'intérêt d'utiliser une arborescence de concepts comme descripteur pour augmenter la diversité. Enfin, nous avons développé un prototype complet avec la prise en compte des contraintes fortes de temps de calcul ce qui le rend adapté pour être utilisable dans le moteur de recherche de l'entreprise.