Thèse soutenue

Modélisation de la coarticulation multimodale : vers l'animation d'une tête parlante intelligible

FR  |  
EN
Auteur / Autrice : Théo Biasutto-Lervat
Direction : Slim Ouni
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 29/01/2021
Etablissement(s) : Université de Lorraine
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury : Président / Présidente : Isabelle Debled-Rennesson
Examinateurs / Examinatrices : Slim Ouni, Mohamed Chetouani, Rafael Laboissière
Rapporteurs / Rapporteuses : Mohamed Chetouani, Rafael Laboissière

Résumé

FR  |  
EN

Nous traitons dans cette thèse la modélisation de la coarticulation par les réseaux de neurones, dans l’objectif de synchroniser l’animation d’un visage virtuel 3D à de la parole. La prédiction de ces mouvements articulatoires n’est pas une tâche triviale, en effet, il est bien établi en production de parole que la réalisation d’un phonème est largement influencée par son contexte phonétique, phénomène appelé coarticulation. Nous proposons dans cette thèse un modèle de coarticulation, c’est-à-dire un modèle qui prédit les trajectoires spatiales des articulateurs à partir de la parole. Nous exploiterons pour cela un modèle séquentiel, les réseaux de neurones récurrents (RNN), et plus particulièrement les Gated Recurrent Units, capables de considérer la dynamique de l’articulation au cœur de leur modélisation. Malheureusement, la quantité de données classiquement disponible dans les corpus articulatoires et audiovisuels semblent de prime-abord faibles pour une approche deep learning. Pour pallier cette difficulté, nous proposons une stratégie permettant de fournir au modèle des connaissances sur les gestes articulatoires du locuteur dès son initialisation. La robustesse des RNNs nous a permis d’implémenter notre modèle de coarticulation pour prédire les mouvements des lèvres pour le français et l’allemand, et de la langue pour l’anglais et l’allemand. L’évaluation du modèle fut réalisée par le biais de mesures objectives de la qualité des trajectoires et par des expériences permettant de valider la bonne réalisation des cibles articulatoires critiques. Nous avons également réalisé une évaluation perceptive de la qualité de l’animation des lèvres du visage parlant. Enfin, nous avons conduit une analyse permettant d’explorer les connaissances phonétiques acquises par le modèle après apprentissage.