Inversion acoustique articulatoire de la parole à l'aide d'images IRM dynamiques
Auteur / Autrice : | Sofiane Azzouz |
Direction : | Yves Laprie, Pierre-André Vuissoz |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 20/10/2023 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES |
Partenaire(s) de recherche : | Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications |
Equipe de recherche : MULTISPEECH |
Mots clés
Résumé
L'objectif de cette thèse est l'inversion acoustique articulatoire, afin de retrouver la forme géométrique du conduit vocal à partir du signal acoustique. Un simple enregistrement de la voix permettra de suivre la dynamique des différents articulateurs lors de la production de la phrase enregistrée. La majorité des travaux actuels en inversion utilisent des données issues de l'articulographie électro-magnétique (EMA) qui donne la position de quelques capteurs sur la langue et les articulateurs facilement accessibles. Cependant, ces données ne peuvent couvrir que la partie du conduit vocal la plus proche de la bouche. Les approches actuelles ne permettent pas de retrouver la géométrie complète du conduit vocal alors que l'on sait par exemple que le larynx joue un rôle déterminant sur l'acoustique du conduit vocal, limitant ainsi leur utilité pour la reconstruction du signal de la parole. L'objectif est de lever ce verrou et l'originalité est de retrouver la géométrie complète du conduit vocal en utilisant les données de l'IRM dynamique acquises à Nancy au laboratoire IADI (INSERM U1254). Cette approche d'une part ouvrira une passerelle réellement opérationnelle entre les gestes articulatoires et l'acoustique dans les deux directions, et d'autre part permettra l'identification du rôle de chaque articulateur afin de pouvoir prendre en compte une éventuelle perturbation concernant un articulateur précis. Le programme de travail comprend deux objectifs majeurs. Tout d'abord, l'inversion du signal acoustique pour retrouver l'évolution temporelle de la coupe médiosagittale. Pour cela nous utiliserons vraisemblablement l'approche LSTM (Long Short-Term Memory) sur les données d'un petit nombre de locuteurs pour lesquels il existe des données en quantité suffisante. Cette approche devra être adaptée à la nature des données et afin de pouvoir identifier la contribution de chacun des articulateurs. Ensuite, l'objectif portera sur l'adaptation au locuteur, visant à construire des plongements anatomiques pour pouvoir étudier chaque articulateur indépendamment, exigeant ainsi une connaissance précise de sa position et de son environnement anatomique immédiat. Cette approche d'adaptation au locuteur répond à deux défis majeurs : elle tient compte de la rareté et du coût élevé des données d'IRM dynamique d'une part. Elle surmonte également les limitations liées à l'utilisation de l'IRM dans certains cas. La piste que nous comptons suivre consistera à s'inspirer de plongements anatomiques récemment proposés pour le traitement des images radiologiques.