Analyse des interactions dans des vidéos d'entretiens commerciaux en face-à-face
Auteur / Autrice : | Jad Haddad |
Direction : | Olivier Lézoray |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 08/12/2021 |
Etablissement(s) : | Normandie |
Ecole(s) doctorale(s) : | École doctorale mathématiques, information et ingénierie des systèmes (Caen) |
Partenaire(s) de recherche : | Laboratoire : Groupe de recherche en informatique, image, automatique et instrumentation de Caen (1995-....) |
établissement de préparation : Université de Caen Normandie (1971-....) | |
Jury : | Président / Présidente : Renaud Séguier |
Examinateurs / Examinatrices : Olivier Lézoray, Yassine Ruichek, Fan Yang Song, Philippe Hamel | |
Rapporteur / Rapporteuse : Yassine Ruichek, Fan Yang Song |
Mots clés
Résumé
La communication orale joue un rôle crucial dans les relations sociales et professionnelles. Les communications en face-à-face, précieuses dans les entretiens de direction et de vente, sont la source la plus riche d’informations sociales car elles combinent communication verbale et non verbale. C’est pourquoi chez Zero to One Technology®, nous développons un outil de diagnostic et pédagogique : le Comscope®. Avec la pratique de l’entretien de rôle et enregistré, puis l’extraction et l’analyse d’indices sociaux, le Comscope mesure automatiquement la qualité de l’interaction pour l’améliorer.Les recherches de cette thèse sont principalement orientées vers la détection des émotions des interlocuteurs lors d’un entretien. Pour ce faire, nous explorons les différentes modalités d’expression des émotions. Nous développons d’abord un modèle pour détecter les émotions faciales à l’aide d’approches conventionnelles, puis développons des modèles d’apprentissage profond pour détecter les émotions selon trois modalités différentes : vidéo, audio et texte. Enfin, nous développons un modèle de fusion pour combiner les trois modalités et produire des prédictions d’émotions trimodales.