Thèse soutenue

Reconnaître les personnes à leur voix : définition d'un cadre scientifique pour garantir la fiabilité des résultats d'une comparaison de voix dans le cadre criminalistique

FR  |  
EN
Auteur / Autrice : Anais Chanclu
Direction : Jean-François Bonastre
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 11/12/2023
Etablissement(s) : Avignon
Ecole(s) doctorale(s) : École doctorale 536 « Sciences et agrosciences » (Avignon)
Partenaire(s) de recherche : Laboratoire : Laboratoire informatique d'Avignon
financement : Agence nationale de la recherche (France)
Jury : Président / Présidente : Christine Meunier
Rapporteurs / Rapporteuses : Martine Adda-Decker, Julien Pinquier

Résumé

FR  |  
EN

Dans le domaine criminalistique, les pratiques de comparaison de voix ont beaucoup évolué ces dernières décennies. Cependant, elles manquent de standardisation et les résultats obtenus peuvent être décriés dans les tribunaux. L’objectif de ce travail de recherche est de définir un cadre scientifique permettant d’évaluer la fiabilité des résultats d’une comparaison de voix dans un cadre criminalistique. Dans un premier temps, nous présentons les bases de données FABIOLE 2 et PTSVOX, spécialement conçues pour répondre aux problématiques de comparaison de voix en criminalistique, ce que ne font pas les bases de données existantes telles que Voxceleb. La base de données FABIOLE 2 se concentre sur la variabilité intralocuteur, souvent négligée dans les études de comparaison de voix, tandis que la base de données PTSVOX se rapproche des conditions réelles. Dans un second temps, nous introduisons le concept de box-rule, qui est un cadre scientifique regroupant un ensemble de conditions dans lesquelles la fiabilité d’une comparaison de voix est connue. Pour définir ce cadre, l’influence de certains facteurs sur la performance d’une comparaison de voix est étudiée en utilisant la base de données FABIOLE 2. Nos résultats montrent que la durée des enregistrements, la différence de durée entre les enregistrements, le genre, l’âge, et l’écart temporel entre les enregistrements à comparer influent sur la performance d’un système de comparaison de voix. Ensuite, nous étudions la perception humaine des locuteurs par le biais d’une tâche de regroupement de voix en locuteurs. Cette approche permet de s’intéresser à la reconnaissance humaine des locuteurs sans passer par des tests binaires, et ainsi limiter les biais qu’ils peuvent engendrer. Nous montrons que la performance des auditeurs n’est pas homogène et qu’elle est influencée par la langue maternelle. Enfin, nous nous intéressons à la caractérisation des voix, qui peut ajouter une information supplémentaire à une comparaison de voix. Nous nous concentrons sur la détection du type de phonation et nous proposons un nouveau système, reposant sur une architecture neuronale profonde et d’une cascade de classifieurs binaires. Ce système obtient de très bons résultats sur les voyelles prépausales de PTSVOX, en milieu fermé, ce qui nous encourage à généraliser ce système à l’ensemble des phonèmes sonores. Les résultats de la généralisation montrent une hétérogénéité entre les locuteurs, mais aussi entre les femmes et les hommes dans les tendances langagières. Pour conclure, ce travail marque une première étape dans la définition d’un cadre scientifique pour la criminalistique et explore plusieurs pistes pour garantir la fiabilité des résultats d’une comparaison de voix. Il ouvre également de nouvelles perspectives tant pour compléter la box-rule que pour caractériser les voix et nous espérons qu’il mènera à des pratiques de comparaison de voix standardisées pour la criminalistique.