Thèse soutenue

Modélisation et gestion de concepts, en particulier temporels, pour l'assistance à la caractérisation de séquences d'images

FR  |  
EN
Auteur / Autrice : Alain Simac
Direction : Patrick LambertMichèle Rombaut
Type : Thèse de doctorat
Discipline(s) : Sciences et Technologies de l’Information et de la Communication
Date : Soutenance le 14/06/2011
Etablissement(s) : Grenoble
Ecole(s) doctorale(s) : École doctorale sciences et ingénierie des systèmes, de l'environnement et des organisations (Chambéry ; 2007-2021)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique, systèmes, traitement de l'information et de la connaissance (Annecy) - Grenoble Images parole signal automatique (2007-....)
Jury : Président / Présidente : Alain Trémeau
Examinateurs / Examinatrices : Patrick Lambert, Michèle Rombaut, Stéphane Bres
Rapporteurs / Rapporteuses : Pierre Morizet-Mahoudeaux, Rémy Mullot

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Les techniques habituelles d'indexation de vidéos passent généralement par une phase d'apprentissage qui nécessite préalablement la constitution d'une base d'apprentissage. Même si la taille de cette base est souvent réduite, la phase d'annotation réalisée par un expert de l'application est souvent longue et fastidieuse. Dans le cadre de cette thèse, nous avons développé un dispositif qui permet de pré-sélectionner un ensemble de prototypes susceptibles de contenir le concept qui doit apparaître dans la base d'apprentissage. Cette base réduite de prototypes sera ensuite annotée par l'expert. Nous nous sommes intéressés à des concepts temporels, ce qui nous a amené à étudier particulièrement des caractéristiques liées au mouvement, comme les points d'intérêt spatio-temporels (STIP Spatial Temporal Interest Points). D'autres caractéristiques ont aussi été utilisées concernant la couleur et la présence de formes particulières. Ces caractéristiques sont ensuite exploitées pour structurer la base de vidéos en briques spatio-temporelles homogènes. Cette structuration correspond à une sorte de segmentation de la base en fonction de chacune des caractéristiques. La liaison entre le concept à définir et les briques extraites de la base est en lien avec le fossé sémantique bien connu dans la problématique d'indexation automatique. La création de ce lien nécessite l'utilisation de la connaissance de l'expert de l'application sur le concept. Nous avons développé un système dans lequel cette connaissance est extraite par un système de questions/réponses. Les couples de questions/réponses permettent de sélectionner des briques répondant à la contrainte, de définir des relations entre certaines briques, et enfin de naviguer dans l'arborescence des questions. Des tests ont été réalisés sur des bases de vidéos de provenances diverses telles que des vidéos provenant d'émissions de télévision, de films d'animation, ou encore des vidéos de laboratoire disponibles sur le net, ou réalisées par nos soins. Ces tests montrent les performances satisfaisantes mais aussi les limites de l'approche et ouvrent des perspectives intéressantes, particulièrement sur les aspects collaboratifs et les aspects adaptatifs qui permettraient de capitaliser les connaissances des experts applicatifs et rendraient le système plus efficient.