Thèse soutenue

Système de détection automatique de risques par traitement de signaux audiovisuels

FR  |  
EN
Auteur / Autrice : Ilyes Bendjoudi
Direction : Frédéric VanderhaegenDenis Hamad
Type : Thèse de doctorat
Discipline(s) : Automatique et traitement du signal
Date : Soutenance le 10/12/2021
Etablissement(s) : Valenciennes, Université Polytechnique Hauts-de-France
Ecole(s) doctorale(s) : École doctorale polytechnique Hauts-de-France (Valenciennes, Nord ; 2021-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'automatique, de mécanique et d'informatique industrielles et humaines (Valenciennes, Nord ; 1994-...)
Etablissement délivrant conjointement le doctorat : Institut national des sciences appliquées Hauts-de-France (Valenciennes, Nord ; 2019-....)
Jury : Président / Présidente : Fadi Dornaika
Examinateurs / Examinatrices : Frédéric Vanderhaegen, Denis Hamad, Bogdan Raducanu, Choubeila Maaoui
Rapporteur / Rapporteuse : Bogdan Raducanu, Choubeila Maaoui

Résumé

FR  |  
EN

L'analyse automatique du comportement humain connait un intérêt croissant en psychologie, linguistique, neuroscience, informatique et en automatique. Cet intérêt prend encore plus d'ampleur au vu des récents succès des algorithmes d'apprentissage automatique dans les t^aches de perception. Comme l'expression du visage et l'intonation de la voix sont des données représentatives de l'état émotionnel d'une personne, notre travail vise à détecter et prédire des situations à risque en analysant l'état cognitif d'un opérateur humain à partir de signaux audio-visuels. Dans ce travail, nous discutons les différentes approches et techniques d'apprentissage automatique pour la reconnaissance d'émotions. Nous montrons ce que les réseaux de neurones à apprentissage profond, en particulier les réseaux de neurones convolutifs, ont apporté à la reconnaissance d'émotions dans un contexte multi-label et multi-tâche. Dans le cadre de la reconnaissance d'émotions à partir d'images en prenant en considération le contexte dans lequel se déroule l'action, nous proposons une architecture originale pour l'extraction des attributs caractéristiques : un module corps, réseau Xception, est dédié à l'extraction d'attributs des émotions de la personne et un module scène, réseau VGG16 modifié, pour l'extraction des attributs de la scène entière. Les sorties de ces deux modules constituent les entrées d'un 3e module, réseau multicouche, composé d'une partie fusion des deux vecteurs de caractéristiques et d'une partie décision pour la reconnaissance d'émotions. Nous présentons aussi une architecture pour la reconnaissance d'émotions à partir de la voix. Nous introduisons le principe du ''Fingerprint'' de l'état émotionnel et le concept de rupture émotionnelle qui sera un indicateur d'un changement brutal et inattendu de l'état émotionnel. Les résultats obtenus lors d'un processus expérimental sont discutés.