Thèse soutenue

Conversion neuronale des attitudes sociales dans les signaux de parole

FR  |  
EN
Auteur / Autrice : Clément Le Moine Veillon
Direction : Axel RoebelNicolas Obin
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 27/02/2023
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Sciences et technologies de la musique et du son (Paris ; 1983-....)
Jury : Président / Présidente : Catherine Pelachaud
Examinateurs / Examinatrices : Carlos Busso, Jaime Lorenzo-Trueba, Berrak Sisman
Rapporteur / Rapporteuse : Thomas Hueber, Damien Lolive

Résumé

FR  |  
EN

En tant qu’animaux sociaux, les humains communiquent entre eux en se transmettant divers types d’information sur le monde et sur eux-mêmes. Au cœur de ce processus, la voix permet la transmission de messages linguistiques dénotant un sens strict qui peut être décodé par l’interlocuteur. En transmettant d’autres informations telles que des attitudes ou des émotions qui connotent le sens strict, la voix enrichit et facilite le processus de communication. Au cours des dernières décennies, l’importance des technologies numériques dans nos vies n’a cessé de croître. Dans de nombreuses situations quotidiennes, nous délaissons les claviers, les souris et même les écrans tactiles au profit d’interactions avec des assistants vocaux ou même des agents virtuels qui permettent de communiquer avec les machines comme on le fait avec nos congénères. Avec l’émergence d’un monde hybride où coexistent réalités physique et virtuelle, il devient crucial de permettre aux machines de capter, d’interpréter et de reproduire les émotions et les attitudes véhiculées par la voix humaine. Cette recherche se concentre sur les attitudes sociales de la parole, qui peuvent être définies dans un contexte d’interaction comme des dispositions vocales envers les autres, et vise à développer des algorithmes pour leur conversion. Pour atteindre cet objectif, des données - c’est-à-dire une collection d’enregistrements audio d’énoncés véhiculant diverses attitudes vocales - sont nécessaires. Cette recherche est donc construite à partir de cette étape initiale de collecte d’une matière première, à savoir un jeu de données dédié aux attitudes sociales de la parole. La conception d’algorithmes de conversion des attitudes vocales implique de comprendre ce qui les définit, à la fois en termes de production - comment les individus utilisent-ils leur appareil vocal pour produire des attitudes ? - et de perception - comment décodent-ils ces attitudes dans la parole?. Nous avons donc mené deux études, une première mettant en évidence les stratégies de production des attitudes vocales et une seconde - basée sur une expérience de Best Worst Scaling (BWS) - mettant principalement en évidence les biais impliqués dans la perception de ces attitudes vocales, fournissant ainsi une double compréhension de la manière dont les attitudes vocales sont communiquées par les individus français. Ces résultats nous ont permis de motiver notre choix de représentation du signal vocal ainsi que nos choix d’architecture et d’optimisation pour la conception d’algorithmes de conversion des attitudes vocales. Afin d’étendre à l’ensemble de la base de données les connaissances sur la perception des attitudes vocales recueillies lors de cette seconde étude, nous avons travaillé à l’élaboration d’un BWS-Net permettant la détection des attitudes mal communiquées, fournissant ainsi des données propres pour l’apprentissage de la conversion. Afin d’apprendre à convertir les attitudes vocales, nous avons adopté une approche basée sur un réseau transformer dans un paradigme de conversion many-to-many utilisant le mel-spectrogramme comme représentation du signal de parole. Les premières expériences ayant révélé une perte d’intelligibilité dans les échantillons convertis, nous avons proposé un conditionnement linguistique de l’algorithme de conversion en lui incorporant un module de reconnaissance de parole. Des mesures objectives et subjectives ont montré que l’algorithme résultant obtient de meilleures performances que le transformer de référence aussi bien en termes d’intelligibilité et d’attitude véhiculée.