Réseaux de neurones récurrents pour le traitement automatique de la parole

Grégory Gelly

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Réseaux de neurones récurrents pour le traitement automatique de la parole

FR |

EN

Auteur / Autrice :	Grégory Gelly
Direction :	Jean-Luc Gauvain
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 22/09/2017
Etablissement(s) :	Université Paris-Saclay (ComUE)
Ecole(s) doctorale(s) :	École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020)
	établissement opérateur d'inscription : Université Paris-Sud (1970-2019)
Jury :	Président / Présidente : Gaël Richard
	Examinateurs / Examinatrices : Jean-Luc Gauvain, Gaël Richard, Jerome Bellegarda, Denis Jouvet, Hermann Ney, Sylvain Surcin
	Rapporteur / Rapporteuse : Jerome Bellegarda, Denis Jouvet

Mots clés

FR |

EN

Mots clés contrôlés

Reconnaissance automatique de la parole

Réseaux neuronaux (informatique)

Mots clés libres

Réseaux de neurones récurrents

Reconnaissance de la parole

LSTM

Résumé

FR |

EN

Le domaine du traitement automatique de la parole regroupe un très grand nombre de tâches parmi lesquelles on trouve la reconnaissance de la parole, l'identification de la langue ou l'identification du locuteur. Ce domaine de recherche fait l'objet d'études depuis le milieu du vingtième siècle mais la dernière rupture technologique marquante est relativement récente et date du début des années 2010. C'est en effet à ce moment qu'apparaissent des systèmes hybrides utilisant des réseaux de neurones profonds (DNN) qui améliorent très notablement l'état de l'art. Inspirés par le gain de performance apporté par les DNN et par les travaux d'Alex Graves sur les réseaux de neurones récurrents (RNN), nous souhaitions explorer les capacités de ces derniers. En effet, les RNN nous semblaient plus adaptés que les DNN pour traiter au mieux les séquences temporelles du signal de parole. Dans cette thèse, nous nous intéressons tout particulièrement aux RNN à mémoire court-terme persistante (Long Short Term Memory (LSTM) qui permettent de s'affranchir d'un certain nombre de difficultés rencontrées avec des RNN standards. Nous augmentons ce modèle et nous proposons des processus d'optimisation permettant d'améliorer les performances obtenues en segmentation parole/non-parole et en identification de la langue. En particulier, nous introduisons des fonctions de coût dédiées à chacune des deux tâches: un simili-WER pour la segmentation parole/non-parole dans le but de diminuer le taux d'erreur d'un système de reconnaissance de la parole et une fonction de coût dite de proximité angulaire pour les problèmes de classification multi-classes tels que l'identification de la langue parlée.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Réseaux de neurones récurrents pour le traitement automatique de la parole

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Réseaux de neurones récurrents pour le traitement automatique de la parole

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses