Thèse soutenue

Contribution à la génération de langage naturel : systèmes et évaluation

FR  |  
EN
Auteur / Autrice : Moussa Kamal eddine
Direction : Michalis Vazirgiannis
Type : Thèse de doctorat
Discipline(s) : Mathématiques et informatique
Date : Soutenance le 16/12/2022
Etablissement(s) : Institut polytechnique de Paris
Ecole(s) doctorale(s) : École doctorale de l'Institut polytechnique de Paris
Partenaire(s) de recherche : établissement opérateur d'inscription : École polytechnique (Palaiseau, Essonne ; 1795-....)
Laboratoire : Laboratoire d'informatique de l'École polytechnique (Palaiseau ; 1988-....)
Jury : Président / Présidente : Ioana Manolescu
Examinateurs / Examinatrices : Michalis Vazirgiannis, Eric Gaussier, Eduard Hovy, Nizar Habash, Jie Tang, Alexandros Potamianos
Rapporteur / Rapporteuse : Eric Gaussier, Eduard Hovy

Résumé

FR  |  
EN

Ces dernières années, le domaine de la génération du langage naturel (GLN) a radicalement changé. Ce changement, qui peut être en partie attribué à l'avancée notable du matériel, a conduit les récents efforts du GLN à se concentrer sur des méthodes basées sur les données tirant parti de grands réseaux de neurones pré-entraînés. Cependant, ces progrès ont donné lieu à de nouveaux défis liés aux exigences de calcul, à l'accessibilité et aux stratégies d'évaluation, pour n'en nommer que quelques-uns. Dans cette thèse, nous nous intéressons principalement à contribuer aux efforts visant à atténuer ces défis.Pour remédier au manque de modèles génératifs monolingues pour certaines langues, nous commençons par présenter BARThez et AraBART, les premiers modèles seq2seq pré-entraînés à grande échelle pour le Français et l'Arabe, respectivement. Basés sur BART, ces modèles sont particulièrement bien adaptés aux tâches génératives. Nous évaluons BARThez sur cinq tâches discriminantes du benchmark FLUE et deux tâches génératives d'un nouvel ensemble de données de résumé, OrangeSum, que nous avons créé pour cette recherche. Nous montrons que BARThez est très compétitif avec les modèles de langue française basés sur BERT tels que CamemBERT et FlauBERT. Nous poursuivons également le pré-entraînement d'un BART multilingue sur le corpus de BARThez, et montrons que notre modèle résultant, mBARThez, améliore considérablement les performances génératives de BARThez. D'autre part, nous montrons qu'AraBART obtient les meilleures performances sur plusieurs ensembles de données de résumé abstractif, surpassant des bases de référence solides.Enfin, nous nous concentrons sur l'évaluation des systèmes GLN en proposant DATScore et FrugalScore. DATScore utilise des techniques d'augmentation des données pour améliorer l'évaluation de la traduction automatique et d'autres tâches GLN. Notre principale conclusion est que l'introduction de traductions enrichies de données des textes source et de référence est très utile pour évaluer la qualité de la traduction générée. Nous proposons également deux nouvelles stratégies de calcul de la moyenne des scores et de pondération des termes pour améliorer le processus original de calcul des scores de BARTScore. Les résultats expérimentaux sur WMT montrent que DATScore est mieux corrélé avec les méta-évaluations humaines que les autres métriques récentes de l'état de l'art, en particulier pour les langues à faibles ressources. D'autre part, FrugalScore est une approche pour apprendre une version fixe et peu coûteuse de toute métrique GLN coûteuse tout en conservant la plupart de ses performances d'origine. Des expériences avec BERTScore et MoverScore sur sur le résumé et la traduction montrent que FrugalScore est comparable avec les métriques d'origine (et parfois mieux), tout en ayant plusieurs ordres de grandeur de moins de paramètres et en s'exécutant plusieurs fois plus rapidement. En moyenne, sur l'ensemble des métriques, tâches et variantes apprises, FrugalScore conserve 96,8% des performances, s'exécute 24 fois plus rapidement et comporte 35 fois moins deparamètres que les métriques d'origine.