Approche hybride pour la reconnaissance automatique de la parole en langue arabe

par Abir Masmoudi Dammak

Thèse de doctorat en Informatique

Sous la direction de Lamia Hadrich Belguith et de Yannick Estève.

Soutenue le 21-09-2016

à Le Mans en cotutelle avec l'Université de Sfax (Tunisie) , dans le cadre de École doctorale Sciences et technologies de l'information et mathématiques (Nantes) , en partenariat avec Laboratoire d'informatique de l'Université du Mans (laboratoire) et de Laboratoire d'Informatique de l'Université du Mans / LIUM (laboratoire) .


  • Résumé

    Le développement d'un système de reconnaissance de la parole exige la disponibilité d'une grande quantité de ressources à savoir, grands corpus de texte et de parole, un dictionnaire de prononciation. Néanmoins, ces ressources ne sont pas disponibles directement pour des dialectes arabes. De ce fait, le développement d'un SRAP pour les dialectes arabes se heurte à de multiples difficultés à savoir, l’'abence de grandes quantités de ressources et l'absence d’'une orthographe standard vu que ces dialectes sont parlés et non écrit. Dans cette perspective, les travaux de cette thèse s’intègrent dans le cadre du développement d’un SRAP pour le dialecte tunisien. Une première partie des contributions consiste à développer une variante de CODA (Conventional Orthography for Arabic Dialectal) pour le dialecte tunisien. En fait, cette convention est conçue dans le but de fournir une description détaillée des directives appliquées au dialecte tunisien. Compte tenu des lignes directives de CODA, nous avons constitué notre corpus nommé TARIC : Corpus de l’interaction des chemins de fer de l’arabe tunisien dans le domaine de la SNCFT. Outre ces ressources, le dictionnaire de prononciation s’impose d’une manière indispensable pour le développement d’un SRAP. À ce propos, dans la deuxième partie des contributions, nous visons la création d’un système nommé conversion (Graphème-Phonème) G2P qui permet de générer automatiquement ce dictionnaire phonétique. Toutes ces ressources décrites avant sont utilisées pour adapter un SRAP pour le MSA du laboratoire LIUM au dialecte tunisien dans le domaine de la SNCFT. L’évaluation de notre système donné lieu WER de 22,6% sur l’ensemble de test.

  • Titre traduit

    Hybrid approach for automatic speech recognition for the Arabic language


  • Résumé

    The development of a speech recognition system requires the availability of a large amount of resources namely, large corpora of text and speech, a dictionary of pronunciation. Nevertheless, these resources are not available directly for Arabic dialects. As a result, the development of a SRAP for Arabic dialects is fraught with many difficulties, namely the lack of large amounts of resources and the absence of a standard spelling as these dialects are spoken and not written. In this perspective, the work of this thesis is part of the development of a SRAP for the Tunisian dialect. A first part of the contributions consists in developing a variant of CODA (Conventional Orthography for Arabic Dialectal) for the Tunisian dialect. In fact, this convention is designed to provide a detailed description of the guidelines applied to the Tunisian dialect. Given the guidelines of CODA, we have created our corpus TARIC: Corpus of the interaction of the railways of the Tunisian Arab in the field of SNCFT. In addition to these resources, the pronunciation dictionary is indispensable for the development of a peech recognition system. In this regard, in the second part of the contributions, we aim at the creation of a system called conversion(Grapheme-Phonème) G2P which allows to automatically generate this phonetic dictionary. All these resources described before are used to adapt a SRAP for the MSA of the LIUM laboratory to the Tunisian dialect in the field of SNCFT. The evaluation of our system gave rise to WER of 22.6% on the test set.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Le Mans Université (Le Mans). Service commun de documentation.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.