La représentation des documents par réseaux de neurones pour la compréhension de documents parlés

Killian Janod

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

FR |

EN

Auteur / Autrice :	Killian Janod
Direction :	Georges Linarès
Type :	Thèse de doctorat
Discipline(s) :	Information et Communication
Date :	Soutenance le 27/11/2017
Etablissement(s) :	Avignon
Ecole(s) doctorale(s) :	École doctorale 536 « Sciences et agrosciences » (Avignon)
Partenaire(s) de recherche :	Laboratoire : Laboratoire informatique d'Avignon
Jury :	Président / Présidente : Fabrice Lefèvre
	Examinateurs / Examinatrices : Fabrice Lefèvre, Frédéric Béchet, Gilles Adda, Véronique Moriceau, Benjamin Lecouteux
	Rapporteurs / Rapporteuses : Frédéric Béchet, Gilles Adda

Mots clés

FR |

EN

Mots clés contrôlés

Reconnaissance automatique de la parole

Réseaux neuronaux (informatique)

Traitement automatique du langage naturel

Mots clés libres

Réseaux de neurones artificiels

Traitement du langage naturel

Reconnaissance de la parole

Résumé

FR |

EN

Les méthodes de compréhension de la parole visent à extraire des éléments de sens pertinents du signal parlé. On distingue principalement deux catégories dans la compréhension du signal parlé : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient. Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé. Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, les travaux de cette thèse montrent que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, nous proposons deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

La représentation des documents par réseaux de neurones pour la compréhension de documents parlés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

La représentation des documents par réseaux de neurones pour la compréhension de documents parlés

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses