Spoken Language Modeling from Raw Audio

Tu Anh Nguyen

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles de langue pour la parole appris à partir du signal audio

FR |

EN

Auteur / Autrice :	Tu Anh Nguyen
Direction :	Benoît Sagot, Emmanuel Dupoux
Type :	Thèse de doctorat
Discipline(s) :	Sciences et technologies de l'information et de la communication
Date :	Soutenance le 09/04/2024
Etablissement(s) :	Sorbonne université
Ecole(s) doctorale(s) :	École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche :	Laboratoire : Institut national de recherche en informatique et en automatique (France). Centre de recherche de Paris (Paris)
Jury :	Président / Présidente : Catherine Pelachaud
	Examinateurs / Examinatrices : Laurent Besacier, Tara N. Sainath
	Rapporteurs / Rapporteuses : David Harwath, Hung-yi Lee

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage automatique

Apprentissage profond

Apprentissage non supervisé (intelligence artificielle)

Traitement automatique de la parole

Mots clés libres

Traitement de la parole et du langage

Apprentissage non supervisé

Apprentissage profond

Apprentissage automatique

Résumé

FR |

EN

La parole a toujours été un mode dominant de connexion sociale et de communication. Cependant, le traitement et la modélisation de la parole sont difficiles en raison de la variabilité le parole. Les technologies classiques de la parole reposent sur une modélisation en cascade, c'est-à-dire la transcription de la parole en texte avec un système de reconnaissance automatique de la parole (ASR), le traitement du texte transcrit à l'aide de méthodes de traitement du langage naturel (NLP) et la conversion du texte en parole avec un modèle de synthèse vocale. Cette méthode élimine la variabilité de la parole mais nécessite beaucoup de jeux de données textuelles, qui ne sont pas toujours disponibles pour toutes les langues. De plus, elle supprime toute l'expressivité contenue dans la parole elle-même.De récentes avancées dans le domaine de l'apprentissage auto-supervisé de la parole (SpeechSSL) ont permis d'apprendre de bonnes représentations discrètes de la parole à partir du signal audio, comblant ainsi le fossé entre les technologies de la parole et du texte. Cela permet d'entraîner des modèles de langue sur des représentations discrètes (unités discrètes ou pseudo-texte) obtenues à partir de la parole et a donné naissance à un nouveau domaine appelé TextlessNLP, où la tâche consiste à apprendre la langue directement sur les signaux audio, sans avoir recours à des systèmes ASR. Les modèles de langue parlé (SpeechLMs) ont été montrés comme faisables et offrent de nouvelles possibilités pour le traitement de la parole par rapport aux systèmes en cascade.L'objectif de cette thèse est donc d'explorer et d'améliorer ce domaine nouvellement formé. Nous allons analyser pourquoi ces représentations discrètes sont efficaces, découvrir de nouvelles applications des SpeechLMs aux dialogues parlés, étendre le TextlessNLP aux paroles plus expressives ainsi qu'améliorer les performances des SpeechLMs pour réduire l'écart entre les SpeechLMs et les TextLMs.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles de langue pour la parole appris à partir du signal audio

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles de langue pour la parole appris à partir du signal audio

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses