Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images
Auteur / Autrice : | Christophe Millet |
Direction : | Isabelle Bloch |
Type : | Thèse de doctorat |
Discipline(s) : | Signal et images |
Date : | Soutenance en 2008 |
Etablissement(s) : | Paris, ENST |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse vise à améliorer l'annotation automatique d'images en introduisant de la connaissance et en proposant un système complètement automatique, où notamment la base d’apprentissage est construite automatiquement à partir des images du Web. Cette thèse est constituée de trois parties : La première partie catégorise une image en fonction de son type (photo, carte, peinture, clipart) puis pour les photographies, détermine le contexte de la scène : intérieur, extérieur, nuit, jour, nature, ville ? Y a-t-il des visages dans la photo ? Y a-t-il du ciel, de l���herbe, de l’eau, de la neige, une route dans l’image ? La deuxième partie construit automatiquement une base d’apprentissage pour n’importe quel objet. Ne connaissant que le nom de l'objet à apprendre, nous déduisons automatiquement sa couleur et le milieu dans lequel il se trouve à partir du web. Nous utilisons ces connaissances pour filtrer des images récupérées également sur Internet, c’est-à-dire rejeter les images ne correspondant pas au concept recherché, et isoler la région correspondant à l’objet dans l’image. La troisième partie concerne la désambiguïsation, i. E. La manière de choisir parmi plusieurs hypothèses de reconnaissance pour une région donnée celle qui permet une annotation globale de l’image sémantiquement cohérente. Deux sortes de désambiguïsation sont développées : l'une utilise les relations spatiales, et s’assure que par exemple le ciel est toujours au-dessus de la mer ; l'autre tient compte du contexte de l’image, en utilisant la relation entre les objets et les milieux dans lesquels ils se trouvent : on a plus de chance de trouver un éléphant dans la savane et un dauphin dans l'eau.