Thèse soutenue

Reconnaissance de la parole dans un contexte de cours magistraux : évaluation, avancées et enrichissement
FR  |  
EN
Accès à la thèse
Auteur / Autrice : Salima Mdhaffar
Direction : Yannick EstèveAntoine LaurentNicolas HernandezSolen Quiniou
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 01/07/2020
Etablissement(s) : Le Mans
Ecole(s) doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique de l'Université du Mans - Laboratoire d'Informatique de l'Université du Mans / LIUM

Résumé

FR  |  
EN

Cette thèse s’inscrit dans le cadre d’une étude sur le potentiel de la transcription automatique pour l'instrumentation de situations pédagogiques.Notre contribution porte sur plusieurs axes. Dans un premier temps, nous décrivons l'enrichissement et l'annotation du corpus COCo que nous avons réalisés dans le cadre du projet ANR PASTEL.Ce corpus est composé de vidéos de différents cours magistraux, chacun étant spécialisé dans un domaine particulier (langage naturel, graphes, fonctions...).Dans ce cadre multi-thématiques, nous nous sommes ensuite intéressés à la problématique de l'adaptation linguistique des systèmes de reconnaissance automatique de la parole (SRAP). La proposition d'adaptation des modèles s'appuie à la fois sur les supports de présentation de cours fournis par les enseignants et sur des données spécialisées récoltées automatiquement à partir du web.Puis, nous nous sommes focalisés sur la problématique de l'évaluation des SRAP, les métriques existantes ne permettant pas une évaluation précise de la qualité des transcriptions dans un cadre applicatif déterminé. Ainsi, nous avons proposé deux protocoles d'évaluation. Le premier porte sur une évaluation intrinsèque, permettant d'estimer la performance seulement pour des mots spécialisés de chacun des cours (IWER_Average). D'autre part, nous proposons une évaluation extrinsèque, qui estime la performance pour deux tâches exploitant la transcription: la recherche d'informations et l'indexabilité.Nos résultats expérimentaux montrent que le taux d'erreurs-mots global (WER) masque les apports effectifs de l’adaptation des modèles de langage et prouve la nécessité d’utiliser de nouvelles mesures, telles que celles présentées dans ce manuscrit, pour évaluer l’apport réel de l’adaptation des modèles de langage.L'adaptation reposant sur une collecte de données issues du web, nous avons cherché à rendre compte de la reproductibilité des résultats sur l'adaptation de modèles de langage en comparant les performances obtenues sur une longue période temporelle.Nos résultats expérimentaux montrent que même si les données sur le web changent en partie d’une période à l’autre, la variabilité de la performance des systèmes de transcription adaptés est restée non significative à partir d'un nombre minimum de documents collectés.Enfin, nous avons proposé une approche permettant de structurer la sortie de la transcription automatique en segmentant thématiquement la transcription et en alignant la transcription avec les diapositives des supports de cours.Pour la segmentation, l'intégration de l'information de changement de diapositives dans l'algorithme TextTiling apporte un gain significatif en termes de F-mesure.Pour l'alignement, nous avons développé une technique basé sur des représentations TF-IDF en imposant une contrainte pour respecter l’ordre séquentiel des diapositives et des segments de transcription et nous avons vérifié la fiabilité de l'approche utilisée à l'aide d'une mesure de confiance.