Traitement automatique des thèmes dans les corpus de parole
Auteur / Autrice : | Yannick Quintin de Kercadio |
Direction : | Jean-Luc Gauvain |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2003 |
Etablissement(s) : | Paris 11 |
Résumé
Cette thèse explore le traitement automatique des thèmes dans les corpus de parole. Le traitement des thèmes consiste à déterminer les sujets abordés dans un document audio contenant de la parole (identification des thèmes), ou à segmenter un flux continu de parole en fragments à contenu homogène en thème (segmentation thématique). L'identification de thèmes peut être déclinée en la recherche de documents traitant d'un thème donné (suivi de thèmes) ou en la détection de documents traitant d'un thème inconnu jusque là (détection de thèmes). Il s'agit ici d'étudier l'impact sur ces tâches des problèmes liés à la transcription automatique de la parole: présence d'erreurs de transcription, et absence de segmentation 'du flux audio en documents. On a développé un système d'indexation et un moteur de recherche pour trouver les textes répondant le mieux (au sens d'une distance ou d'une similarité) à une requête, et on l'a utilisé sur des corpus transcrits automatiquement présentant divers taux d'erreurs sur les mots. Le système a été évalué sur la tâche SDR (Spoken Data Retrieval) de la conférence TREC, dont le protocole expérimental a été utilisé lors de la préparation de la thèse. Les techniques étudiées sont la segmentation en documents par des fenêtres glissantes, la rétroaction (BRF, pour Blind Relevance Feedback), et différentes distances et similarités entre documents (dont la formule Okapi). Les résultats marquants de cette thèse sont d'une part l'observation que les similarités entre documents sont plus robustes que les distances aux erreurs de transcription, et d'autre part que l'effet bénéfique de la rétroaction est surtout dû au fait qu'elle rapproche la requête d'un document type et non au fait qu'elle élargisse le vocabulaire de la requête. Ces résultats incitent à poursuivre l'effort d'amélioration des techniques de traitement des thèmes en direction d'une meilleure représentation des thèmes, si possible sous la forme d'un document.