Thèse en cours

ambiguité et invariance dans l'analyse de scènes acoustiques

FR  |  
EN
Auteur / Autrice : David Perera
Direction : Gaël RichardSlim Essid
Type : Projet de thèse
Discipline(s) : Informatique, données, IA
Date : Inscription en doctorat le 01/09/2021
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : Laboratoire : Laboratoire de Traitement et Communication de l'Information
Equipe de recherche : S2A - Statistique et Apprentissage

Résumé

FR  |  
EN

La détection et la classification de scènes et d'événements acoustiques (DCASE) est un domaine en plein essor. Ce domaine a un intérêt pratique, avec de nombreuses applications industrielles aussi importantes que la maintenance prédictive et aussi ambitieuses que la navigation robotique. Il a également un intérêt théorique, puisqu'il s'agit d'une première étape vers une meilleure compréhension de la façon dont le son transporte de l'information et une meilleure expertise des méthodes efficaces pour extraire cette information. Une difficulté technique centrale dans ce domaine est le faible nombre de bases de données annotées contenant un grand volume de données audio. Cette difficulté met en lumière un défaut majeur des algorithmes actuels : les réseaux de neurones profonds, état de l'art en traitement audio, requièrent une quantité excessive de données pour être performants. Cette thèse explore l'hypothèse suivante : les algorithmes de traitement audio seraient plus performants, plus interprétables, et moins consommateurs en données s'ils prenaient en compte nos connaissances en matière d'acoustique et de génération des sons. L'objectif est ainsi de développer des algorithmes consommant moins de données et capables d'intégrer nos connaissances sur la nature et la perception des sons.