Au delà des mots : utilisation des modèles de langage pour une synthèse vocale incrementale et adaptable au contexte linguistique
Auteur / Autrice : | Brooke Stephenson |
Direction : | Thomas Hueber, Laurent Besacier, Laurent Besacier, Laurent Girin |
Type : | Thèse de doctorat |
Discipline(s) : | Signal, image, paroles, télécoms |
Date : | Soutenance le 26/09/2023 |
Etablissement(s) : | Université Grenoble Alpes |
Ecole(s) doctorale(s) : | École doctorale électronique, électrotechnique, automatique, traitement du signal (Grenoble ; 199.-....) |
Partenaire(s) de recherche : | Laboratoire : Grenoble Images parole signal automatique (2007-....) - Grenoble Images parole signal automatique (2007-....) |
Jury : | Président / Présidente : Olivier Kraif |
Examinateurs / Examinatrices : Joakim Gustafson | |
Rapporteur / Rapporteuse : Damien Lolive, Mireia Farrus Cabeceran |
Mots clés
Résumé
Cette thèse vise à améliorer les systèmes de synthèse vocale à partir du texte en ciblant deux axes, la réactivité et la qualité. En effet, les systèmes actuels présentent un délai important car l’utilisateur doit saisir le texte d’une phrase complète avant que cette dernière ne puisse être synthétisée. Lorsque utilisé comme voix de substitution par une personne présentant un trouble de la parole, ces systèmes ne permettent donc pas une interaction communicationnelle fluide. De plus, les systèmes actuels exploitent exclusivement le texte de la phrase à synthétiser en ignorant le contexte linguistique associé (fourni par exemple par les phrases précédentes). Dans cette thèse, nous proposons d’utiliser les modèles de langage neuronaux pour, (1) prédire le texte futur, à partir du texte déjà saisi, et ainsi débuter au plut tôt la synthèse d'un ou plusieurs mots - on parlera de synthèse incrémentale (2) capturer le contexte linguistique général associé à la phrase à synthétiser pour améliorer la qualité prosodique de la synthèse - on parlera de synthèse adaptée au contexte.Dans une première étude, nous étudions l'évolution des représentations internes d'un système TTS neuronal lorsque ce dernier synthétise un mot avec une connaissance seulement partielle des mots à venir (l’horizon). Une analyse statistique (de type forêts aléatoires) est utilisée pour déterminer quels sont les descripteurs linguistiques qui influent sur la stabilité de ces représentations internes. Enfin, nous complétons ces mesures objectives par un ensemble de tests perceptifs visant à quantifier la qualité prosodique en fonction de l’horizon considéré. Ces évaluations montrent que les systèmes TTS actuels exploitent un horizon d'environ 2 mots et que la stabilité de la représentation interne d’un mot dépend fortement de sa longueur.Notre seconde contribution porte sur le couplage d’un système TTS neuronal et d’un modèle de langage autoregressif tel que GPT, afin de prédire, au fur et à mesure de la saisie du texte, les mots suivants les plus probables. Les évaluations objectives et perceptives menées montrent que cette approche permet un bon compromis entre réactivité et naturel de la synthèse, mais reste très dépendante de la qualité de la prédiction du texte.Notre troisième contribution porte sur l'amélioration générale de la prosodie d'un système TTS et plus spécifiquement sur la prédiction de la focalisation contrastive d'une part, et sur la segmentation incrémentale d’un texte en groupes de souffle d'autre part. Il s'agit de tâches particulièrement difficiles car elles nécessitent l'extraction d'informations au niveau discursif. Nous proposons ici encore d'utiliser les modèles de langage pour capturer ces informations en exploitant un contexte linguistique plus large que la phrase à synthétiser. Plus spécifiquement, nous adaptons des modèles de type BERT ou GPT pour qu'ils prédisent directement des caractéristiques acoustiques associées à la focalisation contrastive, et à la présence de pauses dans le signal de parole.