Analyse automatique des comportements multimodaux lors d’entretiens vidéo différés pour le recrutement - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Automatic analysis of multimodal behaviors during asynchronous video interviews for recruitment

Analyse automatique des comportements multimodaux lors d’entretiens vidéo différés pour le recrutement

Résumé

The development of new technologies influences all sectors of activity, including human resources and particularly the recruitment process. The emergence of pre-recorded video interviews makes it possible to organize asynchronous interviews with candidates and evaluate them. Candidates connect to a platform and record themselves while they answer questions defined in advance by recruiters. The platform then allows several recruiters to evaluate the candidate, share notes and possibly invite the candidate to a face-to-face interview. However, the number of such video applications is becoming increasingly large and difficult to process "manually" by one or two recruiters. It is therefore becoming necessary to consider assistance for the recruiter, who sometimes has to process several hundred video interviews. In addition, the development of such tool could also allow candidates to train the practice of asynchronous video interview thanks to an automatic evaluation. As part of a project with an industrial partner, we collected two corpus of more than 5000 asynchronous video interviews for real jobs. This thesis studies the task of predicting the performance of candidates during asynchronous video interviews using three modalities (verbal content, prosody and facial expressions) using data from real interviews that take place in non-laboratory conditions. We propose a new multimodal hierarchical attention model called HireNet that aims to predict the employability of candidates as assessed by recruiters. In HireNet, an interview is viewed as a sequence of questions and answers containing salient social cues. In a second step, we discuss the influence of non-verbal behavior in a hiring decision. It is important to study this issue because it may provide a better understanding of how to train candidates for job interviews and make recruiters aware of these influential behaviors. Subsequently, we focus on the study of influential social signals in asynchronous video job interviews that are discovered through deep learning methods. A special feature of HireNet is the use of attention mechanisms that aim to identify the most relevant parts of a response. Thus, information at a finite temporal level could be extracted using global annotations (at the interview level) on the candidate's hirability. While most deep learning systems use attention mechanisms to provide a quick visualization of slices when an increase in attention values occurs, we perform an in-depth analysis to understand what happens at these moments. Thus, we study the content of these moments by comparing them with randomly sampled moments in order to study their differences. Overall, this method aims to improve the interpretability of such systems and to question their use as an exploratory tool. Our third contribution concerns biases in automatic video interview analysis systems. We propose a first approach that uses adversarial training to learn a representation that ignores the gender and ethnicity of the candidates. We show experimentally that it ensures a better representation without significant loss of efficiency on the main task. We then study the use of this adversarial training without the need to collect sensitive information about the candidates. In this way, we aim to improve the fairness of future automatic systems for processing job interview videos for equal job selection.
Le développement des nouvelles technologies influence tous les secteurs d’activités, y compris celui des ressources humaines et notamment le processus de recrutement. L’émergence des entretiens vidéo différés permet d’organiser en asynchrone des entretiens avec des candidats et de les évaluer. Les candidats se connectent à une plateforme et se filment pendant qu’ils répondent à des questions définies en amont par les recruteurs. La plateforme permet ensuite à plusieurs recruteurs d’évaluer le candidat, de partager des notes et d’inviter éventuellement le candidat à un entretien en face-à-face. Le nombre de telles candidatures vidéo devient cependant de plus en plus volumineux et difficile à traiter « manuellement » par un ou deux recruteurs. Il devient donc nécessaire d’envisager une aide pour le recruteur qui doit traiter parfois plusieurs centaines d’entretiens vidéo. De plus, le développement d'une telle aide pourra aussi permettre aux candidats de s'entraîner à l'exercice de l'entretien vidéo différé grâce à une évaluation automatique. Dans le cadre d'un projet avec un partenaire industriel, nous avons recueilli deux corpus de plus de 5000 entretiens d'embauche vidéo asynchrones pour des postes réels. Cette thèse étudie la tâche consistant à prédire les performances des candidats lors d'entretiens vidéo asynchrones en utilisant trois modalités (contenu verbal, prosodie et expressions faciales) grâce à des données provenant d'entretiens réels qui se déroulent dans des conditions hors laboratoires. Nous proposons un nouveau modèle multimodal d'attention hiérarchique appelé HireNet qui vise à prédire l’employabilité des candidats tels qu'ils sont évalués par les recruteurs. Dans HireNet, un entretien est considéré comme une séquence de questions et de réponses contenant des signaux sociaux saillants. Dans un second temps, nous abordons la question de l’influence du comportement non verbal dans une décision d'embauche. Il est important d'étudier cette question car elle pourrait permettre de mieux comprendre comment former les candidats aux entretiens d'embauche et sensibiliser les recruteurs à ces comportements influents. Par la suite, nous nous concentrons sur l'étude des signaux sociaux influents dans les entretiens vidéo d'embauche asynchrones qui sont découverts par les méthodes d'apprentissage profond. Une particularité de HireNet est l'utilisation de mécanismes d'attention qui visent à identifier les parties les plus pertinentes d'une réponse. Ainsi, des informations à un niveau temporel fin pourraient être extraites en utilisant des annotations globales (au niveau de l'entretien) sur la convocabilité du candidat. Alors que la plupart des systèmes d'apprentissage profond utilisent des mécanismes d'attention pour offrir une visualisation rapide des tranches lorsqu'une augmentation des valeurs d’attention se produit, nous effectuons une analyse approfondie pour comprendre ce qui se passe lors de ces moments. Ainsi, nous étudions le contenu de ces moments en les comparant avec des moments échantillonnés de manière aléatoire afin d’étudier leurs différences. Dans l’ensemble, cette méthode vise à améliorer l’interprétabilité de tels systèmes et à s’interroger sur leur utilisation comme outil exploratoire. Notre troisième contribution concerne les biais dans les systèmes d'analyse automatique des entretiens vidéo. Nous proposons une première approche qui utilise un entraînement adversaire pour apprendre une représentation ignorant le sexe et l'ethnicité des candidats. Nous montrons expérimentalement qu'elle assure une meilleure représentation sans perte significative d'efficacité sur la tâche principale. Nous étudions ensuite l'utilisation de cet entraînement adversaire sans qu'il soit nécessaire de recueillir des informations sensibles sur les candidats. Ainsi, nous visons à améliorer l'équité des prochains systèmes automatiques de traitement des vidéos d'entretiens d'embauche pour une égalité dans la sélection des emplois.
Fichier principal
Vignette du fichier
93924_HEMAMOU_2021_archivage.pdf (27.94 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03244726 , version 1 (01-06-2021)

Identifiants

  • HAL Id : tel-03244726 , version 1

Citer

Léo Hemamou. Analyse automatique des comportements multimodaux lors d’entretiens vidéo différés pour le recrutement. Réseau de neurones [cs.NE]. Université Paris-Saclay, 2021. Français. ⟨NNT : 2021UPASG009⟩. ⟨tel-03244726⟩
461 Consultations
81 Téléchargements

Partager

Gmail Facebook X LinkedIn More