Macro-segmentation sémantique des documents audiovisuels à l'aide des indices spatio-temporels

par Walid Mahdi

Thèse de doctorat en Sciences. Informatique

Sous la direction de Liming Chen.

Soutenue en 2001

à l'Ecully, Ecole centrale de Lyon .


  • Résumé

    Suite a une convergence rapide de l'informatique et l'audiovisuel, nous assistons a l'heure actuelle a une profusion de documents audiovisuels (dav). Cependant, l'appropriation d'informations visuelles dans le contexte actuel, par une recherche et une navigation intelligente, est difficile. Il est necessaire de proposer des outils, par la creation de tables des matieres ou d'index, permettant aux utilisateurs de maitriser cette abondance d'informations. Dans cette these, nous nous somme principalement interesses au probleme de la segmentation semantique, connue encore sous le nom de macro-segmentation, des documents audiovisuels. L'objectif ici est de mettre en place des techniques permettant d'aider a la creation automatique des tables de matieres, appelees aussi storyboard, associees aux davs en explicitant la structure hierarchique de ceux-ci, en plans, en scenes et en sequences. Notre contribution principale est la mise au point d'une nouvelle methode most (methode spatio-temporel) de macro-segmentation en scenes par une analyse du canal d'images d'un dav en nous focalisant sur des films de fiction. Notre approche trouve son originalite dans la prise en compte des indices spatio-temporels contenus dans un dav, des regles basees sur des conventions du langage audiovisuels reconnues par le spectateur (les ponctuations et le rythme), et aussi des regles basees sur des principes de perception (classification des plan selon le lieu exterieur ou interieur, le temps jour ou nuit). Les resultats experimentaux de notre methode most sur un corpus significatif de sequences video sont tres satisfaisants et tres proches d'une segmentation manuelle realisee par des experts.

  • Titre traduit

    Semantic macro-segmentation of audiovisual documents based on spatial-temporal clues


  • Pas de résumé disponible.


  • Résumé

    More and more AudioVisual Document (DAV) are available in digital form, in various places around the world. Unfortunately, the full use of this media is currently limited by the opaque character of the video which prevents content-based access. To facilitate video navigation and borwsing, it is essential to allow non-linear access, especially for long programs. This can be achieved by identifying story structure to generate the storyboard of index of a DAV which can be captured both by visual content and temporal organization of composing elements within a video. Our principal contribution is a new method "Most" (Spatial- Temporal MethOd) of scences macro-segmentation by analyzing images canal of a DAV. The originality of our technique is to combine the analysis of many main video features, including spatial-temporal clues embedded within a DAV, som rules used in the cinematrographic language such as punctuation and rhythm and other rules based on perception principle (Exterior/Interior shot classification, Day/Night shot classification). The experimental results on more than 90 minutes from different movies, show that our method "Most" performs very well, leading to an automatic segmentation of scenes which is close to a manual expert-based segmentation.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (180 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : 117 réf.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole centrale de Lyon. Bibliothèque Michel Serres.
  • Disponible pour le PEB
  • Cote : T1867
  • Bibliothèque : Ecole centrale de Lyon. Bibliothèque Michel Serres.
  • Non disponible pour le PEB
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.