Thèse soutenue

Analyses acoustiques et prosodiques du français à partir de grandes masses de données orales

FR  |  
EN
Auteur / Autrice : Rena Nemoto
Direction : Martine Adda-Decker
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 16/11/2011
Etablissement(s) : Paris 11
Ecole(s) doctorale(s) : Ecole doctorale Informatique de Paris-Sud
Partenaire(s) de recherche : Laboratoire : Laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur (Orsay, Essonne ; 1972-2020)
Jury : Président / Présidente : Anne Vilnat
Examinateurs / Examinatrices : Martine Adda-Decker, Anne Vilnat, Yannick Estève, François Pellegrino, Ioana Gabriela Vasilescu, Olivier Ferret
Rapporteurs / Rapporteuses : Yannick Estève, François Pellegrino

Résumé

FR  |  
EN

Cette thèse porte sur des analyses acoustiques et prosodiques du français à partir de grandes masses de données orales illustrant différents styles de parole (préparée et spontanée). Nous nous sommes intéressées aux attributs acoustiques et prosodiques qui pourraient caractériser la prononciation. En français, de nombreuses erreurs de reconnaissance automatique de la parole (RAP) sont dues à des mots fréquents homophones. Pour ces mots, la solution correcte dépend du modèle de langage. Une classification automatique (CA) a été effectuée pour discriminer deux paires homophones (‘et/est’ et ‘à/a’) par des propriétés acoustiques et prosodiques. Les résultats de la CA ont montré que le paire ‘et/est’ était plus dissociable. La CA par des attributs prosodiques et inter-segmentaux (15 attributs) s’est avérée aussi performante que celle utilisant la totalité des 62 attributs. Un test perceptif a été également effectué pour vérifier si les humains utilisaient eux aussi ces paramètres. Les résultats ont suggéré que des informations acoustiques et prosodiques pourraient être utiles pour effectuer un choix correct de mots dans des structures syntaxiquement ambigües. Ensuite, nous avons examiné des propriétés prosodiques globales aux niveaux du nom et du syntagme nominal. La comparaison entre mots lexicaux et grammaticaux a montré que la fréquence fondamentale (F0) montante et l’allongement vocalique de la dernière syllabe caractérisent les mots lexicaux, par opposition aux mots grammaticaux. Ainsi, le profil de F0 moyenne d’un syntagme nominal de longueur n pourrait être différent de celui du nom avec une valeur de F0 basse au début du syntagme. Les profils prosodiques peuvent être utiles pour localiser frontières de mots. Les résultats de ce travail pourront servir à localiser le focus et les entités-nommées par des classifieurs discriminants, et de manière plus générale à améliorer les techniques de localisation des frontières des mots pour la RAP.