Optimisation de modèles d'apprentissage rapides pour l'analyse et la synthèse audio
FR |
EN
Auteur / Autrice : | Alexandre Défossez |
Direction : | Francis Bach, Nicolas Usunier, Léon Bottou |
Type : | Thèse de doctorat |
Discipline(s) : | Mathématiques |
Date : | Soutenance le 07/07/2020 |
Etablissement(s) : | Université Paris sciences et lettres |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Emmanuel Dupoux |
Examinateurs / Examinatrices : Francis Bach, Nicolas Usunier, Léon Bottou, Emmanuel Dupoux, Rachel Ward, Axel Roebel | |
Rapporteurs / Rapporteuses : Rachel Ward, Axel Roebel |
Mots clés
FR |
EN
Mots clés contrôlés
Résumé
FR |
EN
Les récents progrès en apprentissage profond permettent désormais l’analyse détaillée de données audio ainsi que leur génération. Les applications sont multiples : transcription automatique de morceaux de musique, séparation de source, synthèse vocale avec différentes identités du locuteur, synthèse de nouveaux instruments, etc. Pour cette thèse, l’objectif est de trouver une architecture simple, rapide et précise capable de résoudre des tâches comme la modélisation d’instruments de musique, ou la séparation de source. L’entraînement de tels modèles implique l’utilisation de technique d’optimisation stochastique dont nous chercherons également à couvrir les aspects théoriques.