Modélisation de la coarticulation multimodale : vers l'animation d'une tête parlante intelligible

Théo Biasutto-Lervat

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modélisation de la coarticulation multimodale : vers l'animation d'une tête parlante intelligible

FR |

EN

Auteur / Autrice :	Théo Biasutto-Lervat
Direction :	Slim Ouni
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 29/01/2021
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Isabelle Debled-Rennesson
	Examinateurs / Examinatrices : Slim Ouni, Mohamed Chetouani, Rafael Laboissière
	Rapporteurs / Rapporteuses : Mohamed Chetouani, Rafael Laboissière

Mots clés

FR |

EN

Mots clés contrôlés

Réseaux neuronaux (informatique)

Apprentissage profond

Expression du visage

Parole

Mots clés libres

Coarticulation

Apprentissage profond

Réseaux de neurones récurrents

Résumé

FR |

EN

Nous traitons dans cette thèse la modélisation de la coarticulation par les réseaux de neurones, dans l’objectif de synchroniser l’animation d’un visage virtuel 3D à de la parole. La prédiction de ces mouvements articulatoires n’est pas une tâche triviale, en effet, il est bien établi en production de parole que la réalisation d’un phonème est largement influencée par son contexte phonétique, phénomène appelé coarticulation. Nous proposons dans cette thèse un modèle de coarticulation, c’est-à-dire un modèle qui prédit les trajectoires spatiales des articulateurs à partir de la parole. Nous exploiterons pour cela un modèle séquentiel, les réseaux de neurones récurrents (RNN), et plus particulièrement les Gated Recurrent Units, capables de considérer la dynamique de l’articulation au cœur de leur modélisation. Malheureusement, la quantité de données classiquement disponible dans les corpus articulatoires et audiovisuels semblent de prime-abord faibles pour une approche deep learning. Pour pallier cette difficulté, nous proposons une stratégie permettant de fournir au modèle des connaissances sur les gestes articulatoires du locuteur dès son initialisation. La robustesse des RNNs nous a permis d’implémenter notre modèle de coarticulation pour prédire les mouvements des lèvres pour le français et l’allemand, et de la langue pour l’anglais et l’allemand. L’évaluation du modèle fut réalisée par le biais de mesures objectives de la qualité des trajectoires et par des expériences permettant de valider la bonne réalisation des cibles articulatoires critiques. Nous avons également réalisé une évaluation perceptive de la qualité de l’animation des lèvres du visage parlant. Enfin, nous avons conduit une analyse permettant d’explorer les connaissances phonétiques acquises par le modèle après apprentissage.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modélisation de la coarticulation multimodale : vers l'animation d'une tête parlante intelligible

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modélisation de la coarticulation multimodale : vers l'animation d'une tête parlante intelligible

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses