Thèse en cours

Traduction automatique de la parole vers des pictogrammes

FR  |  
EN

Accès à la thèse

AttentionLa soutenance a eu lieu le 11/03/2025. Le document qui a justifié du diplôme est en cours de traitement par l'établissement de soutenance.
Auteur / Autrice : Cécile Macaire
Direction : Benjamin LecouteuxDidier Schwab
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le
Soutenance le 11/03/2025
Etablissement(s) : Université Grenoble Alpes
Ecole(s) doctorale(s) : École doctorale mathématiques, sciences et technologies de l'information, informatique
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique de Grenoble
Equipe de recherche : GETALP - Groupe d'Etude en Traduction/Traitement des Langues et de la Parole (ancien labo Clips)
Jury : Président / Présidente : François Portet
Examinateurs / Examinatrices : Benjamin Lecouteux, Iris Eshkol-taravella, Frederic Bechet, Didier Schwab, Nathalie Camelin
Rapporteurs / Rapporteuses : Iris Eshkol-taravella, Frederic Bechet

Résumé

FR  |  
EN

La Communication Alternative et Augmentée (CAA) propose des méthodes et des outils pour pallier les déficiences de la production et de la compréhension de la parole. Les pictogrammes, éléments clés de la CAA, facilitent la communication des pensées et des émotions à travers une iconographie simplifiée. Cependant, des mythes et des barrières économiques freinent son déploiement, soulignant le besoin de solutions adaptées. La traduction automatique de la parole vers des pictogrammes, une nouvelle tâche du Traitement Automatique des Langues (TAL), vise à générer des séquences de pictogrammes à partir d'énoncés oraux. À l'intersection des domaines de la CAA et de la Traduction Automatique de la Parole (TAP), cette tâche peut faciliter la communication entre les aidants (personnels médicaux, proches) et des personnes souffrant de troubles du langage. Elle se heurte néanmoins à des défis majeurs, dont le manque de données multimodales unifiées, l'absence d'un cadre d'évaluation précis et l'inexistence de modèles neuronaux spécialisés pour proposer une traduction en pictogrammes. Dans cette thèse, nous présentons trois contributions pour relever ces défis. Nous introduisons deux méthodes de création de corpus multimodaux alignant de la parole, du texte et des pictogrammes. La première inclut une grammaire et un vocabulaire restreints pour générer une séquence de pictogrammes à partir de la transcription, tandis que la seconde intègre une chaîne de traitement pour récupérer l'audio des textes traduits en pictogrammes. Ces deux méthodes créent des ensembles de données robustes pour l’entraînement et l'évaluation des modèles. Dans notre deuxième contribution, nous définissons un cadre d'évaluation spécifique, combinant une évaluation automatique et humaine. Nous adaptons des métriques communément appliquées aux domaines de la Reconnaissance Automatique de la Parole (RAP) et de la Traduction Automatique (TA) pour comparer les performances entre modèles. Nous appliquons un cadre analytique pour interpréter la qualité des traductions. Enfin, dans notre troisième contribution, nous étudions deux approches, en cascade et de bout-en-bout, pour générer des séquences de pictogrammes à partir de la parole. Nous comparons des modèles de RAP, de TA et de TAP état de l'art, entraînés ou affinés sur les données multimodales créées. Les résultats de notre évaluation démontrent la capacité des modèles en cascade à produire des traductions en pictogrammes compréhensibles sur de la parole lue dans des contextes quotidiens. Nous démontrons des résultats compétitifs avec un modèle de bout-en-bout pour la parole spontanée, un défi persistant en TAL. Le code, les données et les modèles développés sont disponibles librement.