Thèse soutenue

Décodage de la parole à partir de l'activité cérébrale à l'aide de méthodes linéaires

FR  |  
EN
Auteur / Autrice : Gaël Le godais
Direction : Blaise Yvert
Type : Thèse de doctorat
Discipline(s) : Signal, image, paroles, télécoms
Date : Soutenance le 28/06/2022
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....)
Partenaire(s) de recherche : Laboratoire : Grenoble Images parole signal automatique (2007-....)
Jury : Président / Présidente : Anne Guérin-Dugué
Examinateurs / Examinatrices : Olivier David, Tetiana Aksenova
Rapporteurs / Rapporteuses : Frank H. Guenther, Fabien Lotte

Résumé

FR  |  
EN

Le contrôle d’une interface cerveau-ordinateur invasive par une personne paralyséepourrait restaurer une production naturelle de la parole en permettant une synthèsevocale en temps réel à partir de l’activité corticale. Cette thèse vise à décoder demanière hors ligne des enregistrements invasifs existants de l’activité corticale de laparole, en utilisant des méthodes compatibles temps réel qui pourraient ensuite êtreutilisées dans une interface cerveau-ordinateur générant de la parole naturelle.L’accent a été mis sur l’utilisation de méthodes linéaires pour le décodage de la paroleà partir de l’activité corticale. En particulier la régression des moindres carrés partiels,qui a déjà été utilisée avec succès dans des interfaces cerveau-ordinateur moteur,mais pas encore pour le décodage de la parole. Deux principales approches ont étécomparées : 1. le décodage direct de F0 et des coefficients mel cepstraux de la parole,et 2. le décodage indirect de la parole via une représentation articulatoire. Afinde décoder les trajectoires articulatoires à partir de l’activité corticale, celles-ci ontd’abord été déduites des enregistrements audio du patient à l’aide d’un algorithmede déformation temporelle dynamique. Différents réseaux de neurones récurrentsou à propagation avant ont été entraînés à effectuer une synthèse articulatoire-acoustique sur des données d’articulographie électromagnétique, et ont été évaluésà l’aide de critères objectifs et perceptifs. Le meilleur modèle a été ajusté par fine-tuning à prédire les coefficients mel cepstraux de la parole à partir des trajectoiresarticulatoires décodées. La parole a été synthétisée par un filtre MLSA à partir de F0et des coefficients mel cepstraux décodés.Le décodage direct et indirect des caractéristiques acoustiques de la parole ont atteintdes performances similaires, toutes deux significativement meilleures que la chancebien que non intelligibles. La régression des moindres carrés partiels s’est avéréeeffectuer une réduction des caractéristiques neurales plus efficace que les régressionslinéaires basées sur l’ACP, pour une performance similaire. Avant d’effectuer ledécodage, les canaux bruyants et les caractéristiques spectrales de l’activité corticalequi ne contiennent pas d’information sur la parole ont été supprimés avec succèspar une sélection automatique. Nous avons constaté que le décodage à partir despectrogrammes de l’activité corticale était optimal lors de l’utilisation de toutesles fréquences sélectionnées, jusqu’à 200Hz, et en concaténant les 200 dernièresmillisecondes d’activité cérébrale. Les électrodes frontales ont permis de mieuxdécoder les trajectoires articulatoires que les électrodes temporales, tandis quel’inverse était vrai pour les caractéristiques acoustiques. Dans les deux cas cependant,le décodage a été significativement meilleur en utilisant toutes les électrodes à la fois.Enfin, nos expériences suggèrent que le décodage pourrait être amélioré en divisantle décodeur en un modèle classifiant le voisement d’un côté et une régression activeuniquement sur les segments vocaux de l’autre.Dans cette thèse, nous avons mis en place un pipeline de décodage complet basésur des méthodes linéaires et compatibles temps réel. Il devrait maintenant êtreimplémenté pour une évaluation plus approfondie dans une expérience en bouclefermée. En parallèle, bien que le décodage soit bien meilleur que la chance, lesméthodes linéaires ne sont probablement pas encore assez performantes pour êtreutilisées dans une interface cerveau-ordinateur produisant de la parole naturelle. Deprochains travaux devraient se concentrer sur le développement d’autres décodeurscompatibles temps réel, basés notamment sur des réseaux de neurones.