Thèse soutenue

Anonymisation de la parole : évaluation et conception de techniques d'anonymisation du locuteur
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Pierre Champion
Direction : Denis JouvetAnthony LarcherSlim Ouni
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 20/04/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Lori Lamel
Examinateurs / Examinatrices : Anthony Larcher, Slim Ouni, Luciana Ferrer, Lukáš Burget, Jean-François Bonastre
Rapporteurs / Rapporteuses : Luciana Ferrer, Lukáš Burget

Résumé

FR  |  
EN

L'essor de l'utilisation d'assistants vocaux, présents dans les téléphones, automobiles et autres, a augmenté la quantité de données de parole collectées et stockées. Bien que cette collecte de données soit cruciale pour entrainer les modèles qui traitent la parole, cette collecte soulève également des préoccupations de protection de la vie privée. Des technologies de pointe traitant la parole, telles que le clonage vocal et la reconnaissance d'attributs personnels (telles que l'identité, l'émotion, l'âge, le genre, etc.), peuvent être exploitées pour accéder et utiliser des informations personnelles. Par exemple, un malfaiteur pourrait utiliser le clonage vocal pour se faire passer pour une autre personne afin d'obtenir un accès non autorisé à ses informations bancaires par téléphone. Avec l'adoption croissante des assistants vocaux tels qu'Alexa, Google Assistant et Siri, et la facilité avec laquelle les données peuvent être collectées et stockées, le risque d'utilisation abusive de technologies telles que le clonage vocal et la reconnaissance d'attributs personnels augmente. Il est donc important pour les entreprises et les organisations de prendre en compte ces risques et de mettre en place des mesures appropriées pour protéger les données des utilisateurs, en conformité avec les réglementations juridiques telles que le Règlement Général sur la Protection des Données (RGPD). Pour répondre aux enjeux liés à la protection de la vie privée, cette thèse propose des solutions permettant d'anonymiser la parole. L'anonymisation désigne ici le processus consistant à rendre les signaux de parole non associables à une identité spécifique, tout en préservant leur utilité, c'est-à-dire ne pas modifier le contenu linguistique du message. L'objectif est de préserver la vie privée des individus en éliminant ou en rendant floues toutes les informations personnellement identifiables (PPI) contenues dans le signal acoustique, telles que l'accent ou le style de parole d'une personne. Les informations linguistiques personnelles telles que numéros de téléphone ou noms de personnes ne font pas partie du champ d'étude de cette thèse. Notre recherche s'appuie sur les méthodes d'anonymisation existantes basées sur la conversion de la voix et sur des protocoles d'évaluation existants. Nous commençons par identifier et expliquer plusieurs défis auxquels les protocoles d'évaluation doivent faire face afin d'évaluer de manière précise le niveau de protection de la vie privée. Nous clarifions comment les systèmes d'anonymisation doivent être configurés pour être correctement évalués, en soulignant le fait que de nombreuses configurations ne permettent pas une évaluation adéquate de non-asociabilité d'un signal a une identité. Nous étudions et examinons également le système d'anonymisation basé sur la conversion de la voix le plus courant, identifions ses points faibles, et proposons de nouvelles méthodes pour en améliorer les performances. Nous avons isolé tous les composants du système d'anonymisation afin d'évaluer le niveau de PPI encodé par chaque composant. Ensuite, nous proposons plusieurs méthodes de transformation de ces composants dans le but de réduire autant que possible les PPI encodées, tout en maintenant l'utilité. Nous promouvons les algorithmes d'anonymisation basés sur l'utilisation de la quantification en alternative à la méthode la plus utilisée et la plus connue basée sur le bruit. Enfin, nous proposons une nouvelle méthode d'évaluation qui vise à inverser l'anonymisation, créant ainsi une nouvelle manière d'étudier les systèmes d'anonymisation.