Classification du signal sonore en vue d'une indexation par le contenu des documents multimédia

par Hadi Harb

Thèse de doctorat en Sciences. Informatique

Sous la direction de Liming Chen.


  • Résumé

    Les humains ont une aptitude remarquable de classifier les signaux sonores en des classes : musique, parole, applaudissement, explosion, etc. . . Face à une profusion de documents multimédias, nous proposons dans cette thèse de développer des machines de perception auditive automatiques dotées des capacités de classification sonore similaires à celles des humains. Nous suivons une approche inspirée par quelques études sur la perception humaine des classes sémantiques sonores du contexte de multimédia et nous proposons ainsi un modèle de mémoire sonore qui est à la base d'un espace de représentation du signal, nommé espace MGI (Modélisation Gaussienne Incrémentale). Un comité de réseaux de neurones est couplé à l'espace MGI afin de constituer un système de classification du signal sonore. Ce système a permis efficacement la classification en musique/parole, homme/femme, action/non-action, genre de musique, ainsi qu'une structuration des vidéos en des "scène sonores".

  • Titre traduit

    Audio signal classification for content based multimedia indexing


  • Résumé

    Humans have a remarkable ability to categorise audio signals into classes, such as speech, music, explosion, etc. . . The thesis studies the capacity of developing audio classification algorithms inspired by the human perception of the audio semantic classes in the multimedia context. A model of short therm auditory memory is proposed in order to explain some psychoacoustic effects. The memory model is then simplified to constitute the basis of the Piecewise Gaussian Modelling (PGM) features. The PGM features are coupled to a mixture of neural networks to form a general audio signal classifier. The classifier was successfully applied to speech/music classification, gender identification, action detection and musical genre recognition. A synthesis of the classification effort was used in order to structure a video into "audio scenes" and "audio chapters". This work has permitted the development of an autoamtic audio indexer prototype, CYNDI.

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol (203 p.)
  • Notes : Publication autorisée par le jury
  • Annexes : Notes bibliogr.

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Ecole centrale de Lyon. Bibliothèque Michel Serres.
  • Disponible pour le PEB
  • Cote : T1949
  • Bibliothèque : Ecole centrale de Lyon. Bibliothèque Michel Serres.
  • Non disponible pour le PEB
  • Bibliothèque : Centre de recherche INRIA Nancy - Grand Est (Villers les Nancy). Service Information et Edition Scientifiques.
  • PEB soumis à condition
  • Cote : HARB c

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2003ECDL0039
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.