GÉNÉRATION DE LANGAGE DES SIGNES À PARTIR DE LA PAROLE DE BOUT EN BOUT
Auteur / Autrice : | Guilhem Fauré |
Direction : | Slim Ouni |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/10/2024 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES |
Partenaire(s) de recherche : | Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications |
Equipe de recherche : MULTISPEECH |
Mots clés
Mots clés libres
Résumé
Le projet se concentre sur la génération de langage des signes à partir de la parole, sans recourir à des annotations intermédiaires telles que le gloss. Actuellement, les systèmes de génération existants utilisent souvent des annotations intermédiaires, ce qui entraîne une perte d'informations. L'objectif principal est de créer un modèle capable de traduire directement la parole continue en langage des signes, en produisant des animations photoréalistes à partir d'un avatar 3D. Pour cela, le projet exploite les avancées récentes en matière de modélisation de la parole à grande échelle, d'apprentissage auto-supervisé/non supervisé et de traitement automatique du langage naturel. En utilisant un modèle générateur conditionnel basé sur un modèle de diffusion, le projet vise à améliorer la qualité de la génération de gestes tout en explorant l'impact de l'apprentissage par transfert pour surmonter les défis liés aux données limitées. Enfin, le projet cherche à mieux comprendre le processus de production des gestes afin de développer des modèles plus interprétables et capables de générer des gestes plus naturels et expressifs.