Thèse en cours

Multitâches, contrastives et GAN semi-supervisé pour l'amélioration du traitement des dialectes arabes.

FR  |  
EN
Auteur / Autrice : Youness Moukafih
Direction : Kamel SmaïliMounir Ghogho
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 03/06/2020
Etablissement(s) : Université de Lorraine en cotutelle avec UNIVERSITE DE RABAT
Ecole(s) doctorale(s) : École doctorale IAEM Lorraine - Informatique, Automatique, Électronique - Électrotechnique, Mathématiques de Lorraine (1992-....)
Partenaire(s) de recherche : Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Résumé

FR  |  
EN

L'apprentissage profond a révolutionné le domaine du traitement du langage naturel (NLP), apportant des avancées remarquables dans un large éventail de tâches, telles que la traduc tion automatique, la classification des textes et l'analyse des sentiments. Cependant, ces modèles dépendent souvent fortement de la disponibilité de données annotées étendues, ce qui présente des défis pour les langues à faibles ressources ou les scénarios où les données annotées sont difficiles à acquérir. Cette thèse aborde ces défis en concevant de nouvelles techniques et stratégies dans plusieurs domaines du NLP, visant à améliorer la performance des modèles d'apprentissage profond pour les langues à faibles ressources et les données annotées rares. Nos contributions à la recherche commencent par le problème de la traduction automatique pour les dialectes arabes. Grâce à une analyse approfondie de l'ensemble des données, nous identifions les points communs et les caractéristiques uniques des dialectes. Sur la base de ces résultats, nous proposons une stratégie d'apprentissage multitâche qui capitalise sur les propriétés linguistiques partagées et les différences entre les dialectes afin d'améliorer les performances de traduction. Le système proposé exploite efficacement ces caractéristiques communes et distinctes pour améliorer la qualité de la traduction. Ensuite, nous contribuons à plusieurs tâches de classification de textes en introduisant une stratégie de formation innovante basée sur une nouvelle formulation de l'apprentissage contrastif supervisé. Cette approche améliore la précision de la classification en mettant l'accent sur les disparités entre les exemples positifs et négatifs, améliorant ainsi la ca pacité du modèle à différencier les classes. Dans une contribution séparée, nous analysons en profondeur la perte contrastive supervisée et l'améliorons en proposant une nouvelle formulation utilisant des méthodes d'optimisation multi-objectifs. Cela permet au modèle d'équilibrer des objectifs concurrents, ce qui se traduit par une amélioration des perfor mances globales. Dans notre dernière contribution, nous faisons progresser l'état de l'art en matière d'apprentissage semi-supervisé en formulant une nouvelle perte de jeu minimax pour entraîner un mélange de générateurs, plutôt qu'un seul. Cette approche utilise efficacement les données étiquetées et non étiquetées, ce qui améliore la précision de la classification. Nous démontrons que notre méthode améliore la précision et obtient de meilleurs résultats que les techniques existantes, ce qui permet de relever les défis associés aux données annotées limitées. Tout au long de nos contributions à la recherche, nous démontrons le potentiel de ces ap proches pour relever les défis associés à la rareté des données et promouvoir l'application de l'apprentissage profond à un plus large éventail de contextes linguistiques. En explo rant diverses stratégies d'apprentissage, fonctions de perte et techniques d'optimisation, notre travail contribue au développement de techniques et de stratégies innovantes qui améliorent la performance des modèles d'apprentissage profond dans les tâches de TAL, en particulier dans le contexte des langues à faibles ressources ou des données annotées limitées.