Segmentation et regroupement en locuteurs dans des documents audiovisuels, en interaction avec des annotateurs humains
Auteur / Autrice : | Pierre-Alexandre Broux |
Direction : | Sylvain Meignier, Simon Petitrenaud, Jean Carrive |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 10/01/2020 |
Etablissement(s) : | Le Mans |
Ecole(s) doctorale(s) : | École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'informatique de l'Université du Mans - Laboratoire d'Informatique de l'Université du Mans / LIUM |
Equipe de recherche : Institut national de l'audiovisuel (France ; 1986-....) |
Résumé
La tâche de segmentation et de regroupement en locuteur (SRL) consiste à déterminer le nombre de locuteurs ainsi que leurs interventions dans un document audio. Cette tâche intéresse de nombreuses entreprises qui souhaitent indexer leurs contenus audiovisuels. En particulier, l'institut national de l'audiovisuel (INA) désire appliquer cette tâche sur ses archives afin d'en améliorer l'accessibilité mais également l'annotation.Cependant, les usages de l'institut requièrent une qualité minimum qui n'est, la plupart du temps, pas encore atteinte par les systèmes automatiques de SRL à l'état de l'art.Pour atteindre les performances voulues, un humain peut corriger la sortie d'un système de SRL. Néanmoins, une intervention humaine est généralement chronophage et coûteuse. Afin de réduire ces coûts, une solution possible est d'utiliser un système assisté par l'humain : un humain donne des informations à un système afin qu'il améliore ses prédictions pour faire décroître son coût de correction. Le présent manuscrit s'articule autour de la SRL assistée par l'humain. Il propose une mesure afin d'évaluer le coût d'intervention humain pour corriger une SRL, un protocole pour évaluer les interactions d'un humain pour la SRL, un automate simulant les corrections humaines à faire pour une SRL et des systèmes de SRL assistés réduisant le coût d'intervention humain total. Plus précisément, les systèmes de SRL assistés présentés réévaluent soit uniquement le regroupement en locuteurs, soit la segmentation et le regroupement en locuteurs.