Exploitation du contexte sémantique pour améliorer la reconnaissance des noms propres dans les documents audio diachroniques

Imran Sheikh

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Exploitation du contexte sémantique pour améliorer la reconnaissance des noms propres dans les documents audio diachroniques

FR |

EN

Auteur / Autrice :	Imran Sheikh
Direction :	Irina Illina
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 24/11/2016
Etablissement(s) :	Université de Lorraine
Ecole(s) doctorale(s) :	École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche :	Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications
Jury :	Président / Présidente : Christian Wellekens
	Examinateurs / Examinatrices : Dominique Fohr, Georges Linarès
	Rapporteurs / Rapporteuses : Kris Demuynck, Dietrich Klakow

Mots clés

FR |

EN

Mots clés contrôlés

Contexte (linguistique)

Noms propres

Documents audiovisuels

Reconnaissance automatique de la parole

Mots clés libres

Reconnaissance de la parole

Noms propres

OOV

Sémantique distributive

Résumé

FR |

EN

La nature diachronique des bulletins d'information provoque de fortes variations du contenu linguistique et du vocabulaire dans ces documents. Dans le cadre de la reconnaissance automatique de la parole, cela conduit au problème de mots hors vocabulaire (Out-Of-Vocabulary, OOV). La plupart des mots OOV sont des noms propres. Les noms propres sont très importants pour l'indexation automatique de contenus audio-vidéo. De plus, leur bonne identification est importante pour des transcriptions automatiques fiables. Le but de cette thèse est de proposer des méthodes pour récupérer les noms propres manquants dans un système de reconnaissance. Nous proposons de modéliser le contexte sémantique et d'utiliser des informations thématiques contenus dans les documents audio à transcrire. Des modèles probabilistes de thème et des projections dans un espace continu obtenues à l'aide de réseaux de neurones sont explorés pour la tâche de récupération des noms propres pertinents. Une évaluation approfondie de ces représentations contextuelles a été réalisée. Pour modéliser le contexte de nouveaux mots plus efficacement, nous proposons des réseaux de neurones qui maximisent la récupération des noms propres pertinents. En s'appuyant sur ce modèle, nous proposons un nouveau modèle (Neural Bag-of-Weighted-Words, NBOW2) qui permet d'estimer un degré d'importance pour chacun des mots du document et a la capacité de capturer des mots spécifiques à ce document. Des expériences de reconnaissance automatique de bulletins d'information télévisés montrent l'efficacité du modèle proposé. L'évaluation de NBOW2 sur d'autres tâches telles que la classification de textes montre des bonnes performances

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Exploitation du contexte sémantique pour améliorer la reconnaissance des noms propres dans les documents audio diachroniques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Exploitation du contexte sémantique pour améliorer la reconnaissance des noms propres dans les documents audio diachroniques

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses