Modélisation fovéale, autorégressive et neuronale de séries temporelles
Auteur / Autrice : | Mathieu Andreux |
Direction : | Stéphane Mallat |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 12/11/2018 |
Etablissement(s) : | Paris Sciences et Lettres (ComUE) |
Ecole(s) doctorale(s) : | École doctorale Sciences mathématiques de Paris centre (Paris ; 2000-....) |
Partenaire(s) de recherche : | Laboratoire : École normale supérieure (Paris ; 1985-....). Département d'informatique |
Établissement de préparation de la thèse : École normale supérieure (Paris ; 1985-....) | |
Jury : | Président / Présidente : Emmanuel Dupoux |
Examinateurs / Examinatrices : Stéphane Mallat, Emmanuel Dupoux, Bruno Torrésani, Emmanuel Vincent, Mathieu Lagrange, Gilles Wainrib | |
Rapporteur / Rapporteuse : Bruno Torrésani, Emmanuel Vincent |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse s'intéresse à la modélisation non-supervisée de séries temporelles univariées. Nous abordons tout d'abord le problème de prédiction linéaire des valeurs futures séries temporelles gaussiennes sous hypothèse de longues dépendances, qui nécessitent de tenir compte d'un large passé. Nous introduisons une famille d'ondelettes fovéales et causales qui projettent les valeurs passées sur un sous-espace adapté au problème, réduisant ainsi la variance des estimateurs associés. Dans un deuxième temps, nous cherchons sous quelles conditions les prédicteurs non-linéaires sont plus performants que les méthodes linéaires. Les séries temporelles admettant une représentation parcimonieuse en temps-fréquence, comme celles issues de l'audio, réunissent ces conditions, et nous proposons un algorithme de prédiction utilisant une telle représentation. Le dernier problème que nous étudions est la synthèse de signaux audios. Nous proposons une nouvelle méthode de génération reposant sur un réseau de neurones convolutionnel profond, avec une architecture encodeur-décodeur, qui permet de synthétiser de nouveaux signaux réalistes. Contrairement à l'état de l'art, nous exploitons explicitement les propriétés temps-fréquence des sons pour définir un encodeur avec la transformée en scattering, tandis que le décodeur est entraîné pour résoudre un problème inverse dans une métrique adaptée.