Thèse en cours

Génération automatique de résumés fluides de textes en français par apprentissage profond

FR  |  
EN
Auteur / Autrice : Anya Nait djoudi
Direction : Patrice BellotAdrian Chifu
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 01/12/2022
Etablissement(s) : Aix-Marseille
Ecole(s) doctorale(s) : École Doctorale Mathématiques et Informatique de Marseille (Marseille)
Partenaire(s) de recherche : Laboratoire : LIS Laboratoire d'Informatique et Systèmes

Résumé

FR  |  
EN

Le but du projet est d'améliorer les technologies automatiques (par IA) de résumés de documents en français, ce qui correspond à une demande importante dans le traitement automatique de la langue naturelle (TALN ou TAL) à la fois aux niveaux académique et industriel. En effet les algorithmes, modèles et jeux de données de nouvelle génération basés sur les technologies les plus récentes de deep learning (notamment de type Transformer) sont pratiquement exclusivement en langue anglaise. Parallèlement le domaine du résumé automatique est confronté depuis longtemps au manque de métriques fiables d'évaluation de la qualité des résumés fournis; ce manque de métriques d'évaluation est un frein majeur à l'industrialisation et au déploiement des technologies de résumés automatiques pour lesquels des critères de confiance et de pilotage sont indispensables. L'objectif du projet est multiple : (a) Mettre au point de nouvelles méthodes d'évaluation de la qualité des résumés automatiques produits par l'IA afin de piloter la qualité du résumé, notamment suivant les critères suivants: extraction des éléments importants, maîtrise de la longueur et fluidité; (b) Constituer des corpus de référence de longueurs, typologies et thématiques variées; (c) Améliorer les technologies de résumés (fine tuning)