Thèse soutenue

Modélisation profonde basée sur la notion d'attributs de voix pour la reconnaissance du locuteur explicable : application au domaine criminalistique

FR  |  
EN
Auteur / Autrice : Imen Ben amor
Direction : Jean-François Bonastre
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 25/04/2024
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale Sciences et agrosciences (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
Jury : Président / Présidente : Didier Meuwly
Examinateurs / Examinatrices : Tanja Schultz, Corinne Fredouille
Rapporteur / Rapporteuse : Alessandro, PhD Vinciarelli, Tomi Kinnunen

Résumé

FR  |  
EN

La Reconnaissance Automatique du Locuteur (RAL) a été intégrée dans des applications critiques, allant des services d'assistance personnalisés aux systèmes de sécurité et enquêtes criminelles. Son objectif est de déterminer automatiquement si deux échantillons vocaux proviennent du même locuteur. Ces systèmes reposent principalement sur des réseaux neuronaux (DNN) complexes et présentent leurs résultats par une seule valeur. Malgré les performances élevées démontrées par ces systèmes, ils sont incapable de fournir des informations transparentes sur la nature des représentations vocales, leur encodage et leur utilisation dans le processus de prise de décision. Ce manque de transparence pose d'importants défis pour aborder les préoccupations éthiques et légales, en particulier dans des applications à haut risque telles que la criminalistique. Cette thèse introduit une approche en trois étapes basée sur l'apprentissage profond, conçue pour fournir des résultats de RAL interprétables et explicables. Dans la première étape, nous représentons un extrait vocal par la présence ou l'absence d'un ensemble d'attributs vocaux, partagés entre des groupes de locuteurs et sélectionnés pour être discriminants entre les locuteurs. Cette information est encodée par un vecteur binaire où un coefficient égal à 1 représente la présence de l'attribut correspondant dans l'extrait vocal et 0 son absence. Ce modèle binaire et basé sur les attributs facilite l'interprétabilité et permet une meilleure manipulation de l'information vocale. Les résultats montrent que les représentations obtenues sont plus interprétables mais qu'elles sacrifient légèrement les performances de RAL. Dans la deuxième étape, l'objectif est d'assurer le calcul transparent du rapport de vraisemblance (LR), facilitant une évaluation informative de la valeur de preuve vocale en criminalistique. Nous proposons donc une estimation de LR basée sur l'attribut binaire (BA-LR), qui décompose le processus en sous-processus indépendants, chacun dédié à un attribut. Un LR d'attribut est un LR estimé en utilisant uniquement la présence ou l'absence de l'attribut et sa description, définie par trois paramètres comportementaux explicites. Le LR final est calculé comme le produit des LR d'attribut, en supposant leur indépendance. Cette estimation permet un calcul transparent du LR et une compréhension de la valeur des preuves. Il fournit également des explications détaillées sur la contribution des informations de chaque attribut à la valeur finale du LR, aidant les jurés et les juges dans leur prise de décision. Dans la troisième étape, nous menons une découverte de la nature des attributs. Cette investigation utilise des techniques statistiques, des modèles de substitution ainsi que des stratégies de rétropropagation pour fournir une description des attributs en informations acoustiques, phonétiques et phonémiques. Les explications obtenues servent d'outil précieux pour les phonéticiens afin d'interpréter les attributs contributifs à un LR donné. De plus, notre approche en trois étapes est validée par l'application de BA-LR sur des données de criminalistique réelles. Dans ce contexte, nous appliquons un modèle de régression logistique pour gérer le décalage entre les conditions d'entraînement et les scénarios réels. Les résultats démontrent la robustesse et la capacité de généralisation de BA-LR dans un contexte criminalistique. Dans l'ensemble, cette thèse ouvre une nouvelle perspective sur la RAL explicable, en proposant une solution prometteuse pour une prise de décision transparente, avec un niveau de performance comparable aux systèmes SOTA. Elle fournit aux praticiens de la criminalistique et au tribunal des explications pour comprendre la valeur de la preuve et sert d'outil de découverte pour les phonéticiens, les aidant à mieux comprendre l'information vocale. Des investigations supplémentaires sont essentielles pour une mise en œuvre pratique dans des scénarios réels.