Thèse soutenue

Supervision profonde de la forme du conduit vocal pour la synthèse articulatoire de la parole

FR  |  
EN
Auteur / Autrice : Vinícius Ribeiro
Direction : Yves Laprie
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 05/12/2023
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Anne Boyer
Examinateurs / Examinatrices : Yves Laprie, Damien Lolive, Antoine Serrurier, Eduardo Alves do Valle Junior, Alice Turk, Pierre-André Vuissoz
Rapporteurs / Rapporteuses : Damien Lolive, Antoine Serrurier

Résumé

FR  |  
EN

La parole est un processus dynamique et non stationnaire qui nécessite l'interaction de plusieurs articulateurs du conduit vocal. Le contexte dans lequel est articulé un phonème influence très fortement sa production, ce phénomène est connu sous le nom de coarticulation. La synthèse articulatoire de la parole et son homologue, l'inversion acoustique-articulatoire, ont de nombreuses applications potentielles, telles que l'apprentissage des langues étrangères et la conception d'approches de remédiation de la production de la parole. De plus, ces modèles sont utiles pour la recherche en synthèse et en reconnaissance automatique de la parole parce qu'ils font le lien avec le processus de production de la parole. La modélisation des articulations de la parole présente des défis tels que la coarticulation, la non-unicité, et la normalisation du locuteur. Historiquement la recherche s'est concentrée sur les modèles géométriques, mathématiques et statistiques pour décrire la dynamique de la parole. Néanmoins, le développement de tels modèles est confronté à la difficulté d'obtenir des données articulatoires pertinentes auprès de locuteurs réels. Le conduit vocal n'étant pas observable de l'extérieur, diverses méthodes invasives et non invasives ont été utilisées pour collecter ces données, notamment le suivi de capteurs collés sur les articulateurs et l'imagerie médicale. Les premières techniques d'extraction de données articulatoires ont utilisé des rayons X, mais cette technique a été abandonnée en raison de l'exposition aux rayonnements ionisants. Ensuite, l'articulographie électromagnétique a rapidement gagné en popularité en raison de sa fréquence d'échantillonnage élevée et de son faible coût par rapport aux autres techniques. Plus récemment, l'imagerie par résonance magnétique en temps réel (RT-MRI) est devenue la méthode d'acquisition privilégiée en raison de la visibilité de tout le conduit vocal depuis la glotte jusqu'aux lèvres. Cette thèse explore la synthèse des gestes articulatoires de la parole correspondant à une séquence de phonèmes. L'objectif principal est de concevoir un modèle qui prédit l'évolution temporelle de la forme du conduit vocal pour chaque phonème de la séquence d'entrée. Néanmoins, le développement d'un modèle temporel réaliste du conduit vocal est un défi, et par conséquent, nous avons décomposé le problème en trois contributions. La première consiste à obtenir le profil du conduit vocal à partir des films d'IRM temps réel en développant une méthode robuste de segmentation des articulations du conduit. La deuxième contribution consiste à construire un modèle articulatoire qui prédit la forme du conduit vocal pour toute entrée phonétique en français. Les défis sont d'apprendre la coarticulation et d'imposer les lieux d'articulation et les gestes articulatoires qui conduisent à l'acoustique attendue. La troisième contribution est l'évaluation des formes prédites par le modèle. Nous proposons de quantifier l'information phonétique à l'aide de la reconnaissance automatique de phonèmes. Nous mesurons l'information phonétique capturée par les contours médiosagittaux et celle reproduite par le synthétiseur de la forme du conduit vocal en utilisant le taux d'erreur phonétique et les représentations internes du reconnaisseur. Cette thèse ouvre des pistes importantes pour la synthèse articulatoire de la parole. Nous avons observé que la modélisation directe, c'est-à-dire sans modèle articulatoire, conduit aux meilleurs résultats et aux plus naturels. Néanmoins, l'utilisation d'un modèle articulatoire intermédiaire permet d'introduire des connaissances phonétiques pertinentes dans le modèle. Enfin, ce travail ouvre une nouvelle piste de recherche pour évaluer les modèles articulatoires à travers leur représentation phonétique.