ambiguité et invariance dans l'analyse de scènes acoustiques
Auteur / Autrice : | David Perera |
Direction : | Gaël Richard, Slim Essid |
Type : | Projet de thèse |
Discipline(s) : | Informatique, données, IA |
Date : | Inscription en doctorat le 01/09/2021 |
Etablissement(s) : | Institut polytechnique de Paris |
Ecole(s) doctorale(s) : | École doctorale de l'Institut polytechnique de Paris |
Partenaire(s) de recherche : | Laboratoire : Laboratoire de Traitement et Communication de l'Information |
Equipe de recherche : S2A - Statistique et Apprentissage |
Mots clés
Résumé
La détection et la classification de scènes et d'événements acoustiques (DCASE) est un domaine en plein essor. Ce domaine a un intérêt pratique, avec de nombreuses applications industrielles aussi importantes que la maintenance prédictive et aussi ambitieuses que la navigation robotique. Il a également un intérêt théorique, puisqu'il s'agit d'une première étape vers une meilleure compréhension de la façon dont le son transporte de l'information et une meilleure expertise des méthodes efficaces pour extraire cette information. Une difficulté technique centrale dans ce domaine est le faible nombre de bases de données annotées contenant un grand volume de données audio. Cette difficulté met en lumière un défaut majeur des algorithmes actuels : les réseaux de neurones profonds, état de l'art en traitement audio, requièrent une quantité excessive de données pour être performants. Cette thèse explore l'hypothèse suivante : les algorithmes de traitement audio seraient plus performants, plus interprétables, et moins consommateurs en données s'ils prenaient en compte nos connaissances en matière d'acoustique et de génération des sons. L'objectif est ainsi de développer des algorithmes consommant moins de données et capables d'intégrer nos connaissances sur la nature et la perception des sons.