Thèse soutenue

Analyse automatique des comportements multimodaux lors d’entretiens vidéo différés pour le recrutement

FR  |  
EN
Auteur / Autrice : Léo Hemamou
Direction : Jean-Claude MartinChloé Clavel
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 04/02/2021
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) - Télécom Paris (Palaiseau ; 1977-....)
référent : Faculté des sciences d'Orsay
Entreprise : Easyrecrue (Paris)
Jury : Président / Présidente : Anne Vilnat
Examinateurs / Examinatrices : Louis-Philippe Morency, Björn Schuller, Deborah Powell, Ehsan Hoque, Dinesh Babu Jayagopi
Rapporteurs / Rapporteuses : Louis-Philippe Morency, Björn Schuller

Résumé

FR  |  
EN

Le développement des nouvelles technologies influence tous les secteurs d’activités, y compris celui des ressources humaines et notamment le processus de recrutement. L’émergence des entretiens vidéo différés permet d’organiser en asynchrone des entretiens avec des candidats et de les évaluer. Les candidats se connectent à une plateforme et se filment pendant qu’ils répondent à des questions définies en amont par les recruteurs. La plateforme permet ensuite à plusieurs recruteurs d’évaluer le candidat, de partager des notes et d’inviter éventuellement le candidat à un entretien en face-à-face. Le nombre de telles candidatures vidéo devient cependant de plus en plus volumineux et difficile à traiter « manuellement » par un ou deux recruteurs. Il devient donc nécessaire d’envisager une aide pour le recruteur qui doit traiter parfois plusieurs centaines d’entretiens vidéo. De plus, le développement d'une telle aide pourra aussi permettre aux candidats de s'entraîner à l'exercice de l'entretien vidéo différé grâce à une évaluation automatique. Dans le cadre d'un projet avec un partenaire industriel, nous avons recueilli deux corpus de plus de 5000 entretiens d'embauche vidéo asynchrones pour des postes réels. Cette thèse étudie la tâche consistant à prédire les performances des candidats lors d'entretiens vidéo asynchrones en utilisant trois modalités (contenu verbal, prosodie et expressions faciales) grâce à des données provenant d'entretiens réels qui se déroulent dans des conditions hors laboratoires. Nous proposons un nouveau modèle multimodal d'attention hiérarchique appelé HireNet qui vise à prédire l’employabilité des candidats tels qu'ils sont évalués par les recruteurs. Dans HireNet, un entretien est considéré comme une séquence de questions et de réponses contenant des signaux sociaux saillants. Dans un second temps, nous abordons la question de l’influence du comportement non verbal dans une décision d'embauche. Il est important d'étudier cette question car elle pourrait permettre de mieux comprendre comment former les candidats aux entretiens d'embauche et sensibiliser les recruteurs à ces comportements influents. Par la suite, nous nous concentrons sur l'étude des signaux sociaux influents dans les entretiens vidéo d'embauche asynchrones qui sont découverts par les méthodes d'apprentissage profond. Une particularité de HireNet est l'utilisation de mécanismes d'attention qui visent à identifier les parties les plus pertinentes d'une réponse. Ainsi, des informations à un niveau temporel fin pourraient être extraites en utilisant des annotations globales (au niveau de l'entretien) sur la convocabilité du candidat. Alors que la plupart des systèmes d'apprentissage profond utilisent des mécanismes d'attention pour offrir une visualisation rapide des tranches lorsqu'une augmentation des valeurs d’attention se produit, nous effectuons une analyse approfondie pour comprendre ce qui se passe lors de ces moments. Ainsi, nous étudions le contenu de ces moments en les comparant avec des moments échantillonnés de manière aléatoire afin d’étudier leurs différences. Dans l’ensemble, cette méthode vise à améliorer l’interprétabilité de tels systèmes et à s’interroger sur leur utilisation comme outil exploratoire. Notre troisième contribution concerne les biais dans les systèmes d'analyse automatique des entretiens vidéo. Nous proposons une première approche qui utilise un entraînement adversaire pour apprendre une représentation ignorant le sexe et l'ethnicité des candidats. Nous montrons expérimentalement qu'elle assure une meilleure représentation sans perte significative d'efficacité sur la tâche principale. Nous étudions ensuite l'utilisation de cet entraînement adversaire sans qu'il soit nécessaire de recueillir des informations sensibles sur les candidats. Ainsi, nous visons à améliorer l'équité des prochains systèmes automatiques de traitement des vidéos d'entretiens d'embauche pour une égalité dans la sélection des emplois.