Analyse et synthèse de scènes sonores urbaines par approches d'apprentissage profond

Félix Gontier

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Analyse et synthèse de scènes sonores urbaines par approches d'apprentissage profond

FR |

EN

Auteur / Autrice :	Félix Gontier
Direction :	Jean-François Petiot, Mathieu Lagrange, Catherine Lavandier
Type :	Thèse de doctorat
Discipline(s) :	Acoustique
Date :	Soutenance le 15/12/2020
Etablissement(s) :	Ecole centrale de Nantes
Ecole(s) doctorale(s) :	Sciences de l'ingénierie et des systèmes (Nantes Université)
Partenaire(s) de recherche :	Laboratoire : Laboratoire des Sciences du Numérique de Nantes
Jury :	Président / Présidente : Catherine Marquis-Favre
	Examinateurs / Examinatrices : Jean-François Petiot, Mathieu Lagrange, Catherine Lavandier, Catherine Marquis-Favre, Dick Botteldooren, Gaël Richard, Romain Serizel
	Rapporteurs / Rapporteuses : Dick Botteldooren, Gaël Richard

Mots clés

FR |

EN

Mots clés contrôlés

Capteurs (technologie)

Apprentissage profond

Villes -- Bruit

Mots clés libres

Paysages sonores

Réseaux de capteurs acoustiques

Perception de sources sonores

Synthèse sonore

Résumé

FR |

EN

L'avènement de l'Internet des Objets (IoT) a permis le développement de réseaux de capteurs acoustiques à grande échelle, dans le but d'évaluer en continu les environnements sonores urbains. Dans l'approche de paysages sonores, les attributs perceptifs de qualité sonore sont liés à l'activité de sources, quantités d'importance pour mieux estimer la perception humaine des environnements sonores. Utilisées avec succès dans l'analyse de scènes sonores, les approches d'apprentissage profond sont particulièrement adaptées pour prédire ces quantités. Cependant, les annotations nécessaires au processus d'entraînement de modèles profonds ne peuvent pas être directement obtenues, en partie à cause des limitations dans l’information enregistrée par les capteurs nécessaires pour assurer le respect de la vie privée. Pour répondre à ce problème, une méthode pour l'annotation automatique de l'activité des sources d'intérêt sur des scènes sonores simulées est proposée. Sur des données simulées, les modèles d'apprentissage profond développés atteignent des performances « état de l'art » pour l'estimation d'attributs perceptifs liés aux sources, ainsi que de l'agrément sonore. Des techniques d'apprentissage par transfert semisupervisé sont alors étudiées pour favoriser l'adaptabilité des modèles appris, en exploitant l'information contenue dans les grandes quantités de données enregistrées par les capteurs. Les évaluations sur des enregistrements réalisés in situ et annotés montrent qu'apprendre des représentations latentes des signaux audio compense en partie les défauts de validité écologique des scènes sonores simulées. Dans une seconde partie, l'utilisation de méthodes d'apprentissage profond est considérée pour la resynthèse de signaux temporels à partir de mesures capteur, sous contrainte de respect de la vie privée. Deux approches convolutionnelles sont développées et évaluées par rapport à des méthodes état de l'art pour la synthèse de parole.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Analyse et synthèse de scènes sonores urbaines par approches d'apprentissage profond

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Analyse et synthèse de scènes sonores urbaines par approches d'apprentissage profond

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses