Auteur / Autrice : | Hadi Harb |
Direction : | Liming Chen |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences. Informatique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Ecully, Ecole centrale de Lyon |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône) |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Les humains ont une aptitude remarquable de classifier les signaux sonores en des classes : musique, parole, applaudissement, explosion, etc. . . Face à une profusion de documents multimédias, nous proposons dans cette thèse de développer des machines de perception auditive automatiques dotées des capacités de classification sonore similaires à celles des humains. Nous suivons une approche inspirée par quelques études sur la perception humaine des classes sémantiques sonores du contexte de multimédia et nous proposons ainsi un modèle de mémoire sonore qui est à la base d'un espace de représentation du signal, nommé espace MGI (Modélisation Gaussienne Incrémentale). Un comité de réseaux de neurones est couplé à l'espace MGI afin de constituer un système de classification du signal sonore. Ce système a permis efficacement la classification en musique/parole, homme/femme, action/non-action, genre de musique, ainsi qu'une structuration des vidéos en des "scène sonores".