Thèse soutenue

Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains

FR  |  
EN
Auteur / Autrice : Pierre-Alexandre Broux
Direction : Sylvain MeignierSimon PetitrenaudJean Carrive
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 10/01/2020
Etablissement(s) : Le Mans
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Université du Mans - Laboratoire d'Informatique de l'Université du Mans / LIUM
Equipe de recherche : Institut national de l'audiovisuel (France ; 1986-....)

Résumé

FR  |  
EN

La tâche de segmentation et de regroupement en locuteur (SRL) consiste à déterminer le nombre de locuteurs ainsi que leurs interventions dans un document audio. Cette tâche intéresse de nombreuses entreprises qui souhaitent indexer leurs contenus audiovisuels. En particulier, l'institut national de l'audiovisuel (INA) désire appliquer cette tâche sur ses archives afin d'en améliorer l'accessibilité mais également l'annotation.Cependant, les usages de l'institut requièrent une qualité minimum qui n'est, la plupart du temps, pas encore atteinte par les systèmes automatiques de SRL à l'état de l'art.Pour atteindre les performances voulues, un humain peut corriger la sortie d'un système de SRL. Néanmoins, une intervention humaine est généralement chronophage et coûteuse. Afin de réduire ces coûts, une solution possible est d'utiliser un système assisté par l'humain : un humain donne des informations à un système afin qu'il améliore ses prédictions pour faire décroître son coût de correction. Le présent manuscrit s'articule autour de la SRL assistée par l'humain. Il propose une mesure afin d'évaluer le coût d'intervention humain pour corriger une SRL, un protocole pour évaluer les interactions d'un humain pour la SRL, un automate simulant les corrections humaines à faire pour une SRL et des systèmes de SRL assistés réduisant le coût d'intervention humain total. Plus précisément, les systèmes de SRL assistés présentés réévaluent soit uniquement le regroupement en locuteurs, soit la segmentation et le regroupement en locuteurs.