Reconnaissance et traduction automatique de la parole de vidéos arabes et dialectales
Auteur / Autrice : | Mohamed Amine Menacer |
Direction : | Kamel Smaïli, Denis Jouvet |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 17/11/2020 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire lorrain de recherche en informatique et ses applications |
Jury : | Président / Présidente : Martine Adda-Decker |
Examinateurs / Examinatrices : Kamel Smaïli, Denis Jouvet, Yannick Estève, Mohand Tahar Kechadi, Chiraz Latiri Cherif | |
Rapporteurs / Rapporteuses : Yannick Estève, Mohand Tahar Kechadi |
Résumé
Les travaux de recherche ont été développés dans le cadre du projet AMIS (Access to Multilingual Information and opinionS) dont l'objectif principal est de développer un système d’aide à la compréhension de vidéos dans des langues étrangères en générant un résumé automatique de ces dernières dans une langue compréhensible par l'utilisateur. Dans le cadre de cette thèse, nous nous sommes concentrés sur la reconnaissance et la traduction automatique de la parole de vidéos arabes et dialectales. Les approches statistiques proposées dans la littérature pour la reconnaissance automatique de la parole (RAP) sont indépendantes de la langue et elles sont applicables à l'arabe standard. Cependant, cette dernière présente quelques caractéristiques que nous devons prendre en considération afin de booster les performances du système de RAP. Parmi ces caractéristiques on peut citer l'absence de l'indication des voyelles dans le texte ce qui rend difficile leur apprentissage par le modèle acoustique. Nous avons proposé plusieurs approches de modélisation acoustique et/ou de langage afin de mieux reconnaître la parole arabe. L'arabe standard n'est pas la langue maternelle, c'est pourquoi dans les conversations quotidiennes, on utilise le dialecte, un arabe inspiré de l'arabe standard, mais pas seulement. Nous avons travaillé sur l'adaptation du système développé pour l'arabe standard au dialecte algérien qui est l'une des variantes de la langue arabe les plus difficiles à reconnaître par les systèmes de RAP. Cela est dû aux mots empruntés d'autres langues, au code-switching et au manque de ressources. Notre proposition pour remédier à ces problèmes est de tirer profit des données orales et textuelles d'autres langues impactant le dialecte. Le texte résultant de la RAP arabe a été utilisé pour la traduction automatique (TA). Nous avons réalisé dans un premier temps une étude comparative entre l'approche statistique à base de segments et l'approche neuronale utilisées dans le cadre de la TA. Ensuite, nous nous sommes intéressés à l’adaptation de ces deux approches pour traduire le texte code-switché. Notre étude portait sur le mélange de l'arabe et de l'anglais dans des documents officiels des nations unies. Pour pallier les différents problèmes dus à la propagation des erreurs dans le système séquentiel, nous avons travaillé sur l'adaptation du vocabulaire du système de RAP et sur la proposition d'une nouvelle modélisation permettant la traduction directe de la parole.