Apprentissage de représentations pour l'analyse de scènes sonores

Victor Bisot

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage de représentations pour l'analyse de scènes sonores

FR |

EN

Auteur / Autrice :	Victor Bisot
Direction :	Gaël Richard, Slim Essid
Type :	Thèse de doctorat
Discipline(s) :	Signal et Images
Date :	Soutenance le 16/03/2018
Etablissement(s) :	Paris, ENST
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : Laboratoire Traitement et communication de l'information (Paris ; 2003-....)
Jury :	Président / Présidente : Laurent Daudet
	Examinateurs / Examinatrices : Annamaria Mesaros, Jimena Royo-Letelier
	Rapporteurs / Rapporteuses : Emmanuel Vincent, Alain Rakotomamonjy

Mots clés

FR |

EN

Mots clés contrôlés

Analyse de scènes auditives computationnelle

Mots clés libres

Classification de scènes sonores

Détection d’événements sonores

Apprentissage de représentations

Factorisation en matrices positives

Apprentissage automatique

Réseaux de neurones profonds

Résumé

FR |

EN

Ce travail de thèse s’intéresse au problème de l’analyse des sons environnementaux avec pour objectif d’extraire automatiquement de l’information sur le contexte dans lequel un son a été enregistré. Ce domaine de recherche a connu un succès grandissant ces dernières années entraînant une rapide évolution du nombre de travaux et des méthodes employées. Nos travaux explorent et contribuent à plusieurs grandes familles d’approches pour l’analyse de scènes et événements sonores allant de l’ingénierie de descripteurs jusqu’aux réseaux de neurones profonds. Notre travail se focalise sur les techniques d’apprentissage de représentations par factorisation en matrices positives (NMF), qui sont particulièrement adaptées à l’analyse d’environnements multi-sources tels que les scènes sonores. Nous commençons par montrer que les spectrogrammes contiennent suffisamment d’information pour discriminer les scènes sonores en proposant une combinaison de descripteurs d’images extraits à partir des images temps-fréquence. Nous quittons ensuite le monde de l’ingénierie de descripteurs pour aller vers un apprentissage automatique des représentations. Nous entamons cette partie du travail en nous intéressant aux approches non-supervisées, en particulier à l’apprentissage de descripteurs par différentes variantes de la NMF. Plusieurs des approches proposées confirment l’intérêt de l’apprentissage de caractéristiques par NMF en obtenant des performances supérieures aux meilleures approches par extraction de descripteurs. Nous proposons ensuite d’améliorer les représentations apprises en introduisant le modèle TNMF, une variante supervisée de la NMF. Les modèles et algorithmes TNMF proposés se basent sur un apprentissage conjoint du classifieur et du dictionnaire de sorte à minimiser un coût de classification. Dans une dernière partie, nous discutons des liens de compatibilité entre la NMF et certaines approches par réseaux de neurones profonds. Nous proposons et adaptons des architectures de réseaux de neurones à l’utilisation de la NMF. Les modèles introduits nous permettent d’atteindre des performances état de l’art sur des tâches de classification de scènes et de détection d’événements sonores. Enfin nous explorons la possibilité d’entraîner conjointement la NMF et les paramètres du réseau, regroupant ainsi les différentes étapes de nos systèmes en un seul problème d’optimisation.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage de représentations pour l'analyse de scènes sonores

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage de représentations pour l'analyse de scènes sonores

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses