Détection automatique de cris dans le métro
Auteur / Autrice : | Pierre Laffitte |
Direction : | Laurent Girin, Charles Tatkeu, David Sodoyer |
Type : | Thèse de doctorat |
Discipline(s) : | Traitement du Signal et des Images |
Date : | Soutenance le 13/12/2017 |
Etablissement(s) : | Lille 1 |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur (Lille) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire Électronique Ondes et Signaux pour les Transports (1994-2017) |
Mots clés
Mots clés contrôlés
Mots clés libres
Résumé
Ce travail s’appuie sur les principes de la reconnaissance de motifs sonores et de la modélisation statistique pour proposer un système capable de reconnaître et détecter automatiquement des cris de personnes à l’intérieur d’un métro. Utilisant des enregistrements provenant de reconstitutions de scènes d’agressions dans une rame de métro Parisien en fonctionnement, nous avons estimé des modèles statistiques issus de trois architectures de réseaux de neurones différentes (DNN, CNN et RNN/LSTM). Ces modèles ont été appris sur 3 catégories de sons à reconnaître dans un premier temps (cris, parole, et bruit environnant), puis sur des catégories introduisant des informations spécifiques au déplacement de la rame de métro (afin d’apporter une information contextuelle supplémentaire), considérant soit les événements sonores isolés soit le flux audio continu. Les résultats obtenus montrent que le modèle le plus efficace est le modèle RNN/LSTM qui permet de mieux prendre en compte la structure temporelle des événements sonores. La reconnaissance des trois catégories cris, parole et bruit de fond est probante, indépendamment du reste de l’environnement sonore, mais l’ajout d’information contextuelle permet d’améliorer les taux de reconnaissance. Nous concluons que le manque de données est un facteur limitant, qui pourrait être atténué en utilisant l’apprentissage par transfert, consistant à utiliser des réseaux plus complexes pré-appris sur des données différentes, ou des techniques d’augmentation, consistant à accroitre la taille de la base de données en créant des données artificielles à partir de celles existantes.