Thèse soutenue

Classification du signal sonore en vue d'une indexation par le contenu des documents multimédia
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Hadi Harb
Direction : Liming Chen
Type : Thèse de doctorat
Discipline(s) : Sciences. Informatique
Date : Soutenance en 2003
Etablissement(s) : Ecully, Ecole centrale de Lyon
Partenaire(s) de recherche : Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Les humains ont une aptitude remarquable de classifier les signaux sonores en des classes : musique, parole, applaudissement, explosion, etc. . . Face à une profusion de documents multimédias, nous proposons dans cette thèse de développer des machines de perception auditive automatiques dotées des capacités de classification sonore similaires à celles des humains. Nous suivons une approche inspirée par quelques études sur la perception humaine des classes sémantiques sonores du contexte de multimédia et nous proposons ainsi un modèle de mémoire sonore qui est à la base d'un espace de représentation du signal, nommé espace MGI (Modélisation Gaussienne Incrémentale). Un comité de réseaux de neurones est couplé à l'espace MGI afin de constituer un système de classification du signal sonore. Ce système a permis efficacement la classification en musique/parole, homme/femme, action/non-action, genre de musique, ainsi qu'une structuration des vidéos en des "scène sonores".