Indexation de documents audio : cas des grands volumes de données

par Jamal-Eddine Rougui

Thèse de doctorat en Informatique

Sous la direction de Noureddine Mouaddib et de Marc Gelgon.


  • Résumé

    Cette thèse est consacrée à l’élaboration et l’évaluation des techniques visant à renforcer la robustesse des systèmes d’indexation de documents audio au sens du locuteur. L’indexation audio au sens du locuteur consiste à reconnaître l’identité des locuteurs ainsi que leurs interventions dans un flux continu audio ou dans une base de données d’archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classification en locuteurs. La technique utilisée repose sur l’extraction des coefficients mel-cepstrales, suivi par l’apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d’hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d’indexation permet d’effectuer la mise à jour des modèles MMG de locuteur à l’aide de l’algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enfin, à travers de deux études utilisant des structures arborescentes binaire ou n’aire, une réflexion est conduite afin de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réflexions sur l’apport de l’analyse vidéo sont discutées et les besoins futurs sont explorés

  • Titre traduit

    Text-independent speaker technologies for Audio indexing and retrieval in the case of large data


  • Résumé

    This thesis is devoted to techniques for speaker-based recognition systems to scale up to large amounts of data and speaker models. We have chosen to partition audio documents (news broadcast) according to speakers. The mel-cepstral acoustic characteristics of each speaker are model through a probabilistic Gaussian mixture model. First, speaker change detection in the stream is carried out by Bayesian hypothesis testing. The scheme is incremental : as new speakers are detected, they are either identified in the database or new entries are created in the database. First, we have examined some issues related to building a tree structure exploiting a similarity between speaker models. Several contributions were made. First, a proposal for organising a set of speaker models, based on an elementary model grouping. Then, we used an approximation of Kullback-Leibler divergence for this purpose. Finally, through two studies using binary of nary tree structures, we discuss the way of a version suitable for incremental processing. Finally, perspectives are drawn regarding joint audio/video analysis and future needs are analyzed

Autre version

Cette thèse a donné lieu à une publication en 2010 par [CCSD] à Villeurbanne

Indexation de documents audio : cas des grands volumes de données

Consulter en bibliothèque

La version de soutenance existe sous forme papier

Informations

  • Détails : 1 vol. (138 f.)
  • Notes : Publication autorisée par le jury
  • Annexes : Bibliogr. f. 125-131

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Nantes Université. Service commun de la documentation. BU Sciences.
  • Disponible pour le PEB

Cette version existe également sous forme de microfiche :

  • Bibliothèque : Université de Lille. Service commun de la documentation. Bibliothèque universitaire de Sciences Humaines et Sociales.
  • Non disponible pour le PEB
  • Cote : 2008NANT2031
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.