Génération automatique de résumés fluides de textes en français par apprentissage profond
Auteur / Autrice : | Anya Nait djoudi |
Direction : | Patrice Bellot, Adrian Chifu |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/12/2022 |
Etablissement(s) : | Aix-Marseille |
Ecole(s) doctorale(s) : | École Doctorale Mathématiques et Informatique de Marseille (Marseille) |
Partenaire(s) de recherche : | Laboratoire : LIS Laboratoire d'Informatique et Systèmes |
Résumé
Le but du projet est d'améliorer les technologies automatiques (par IA) de résumés de documents en français, ce qui correspond à une demande importante dans le traitement automatique de la langue naturelle (TALN ou TAL) à la fois aux niveaux académique et industriel. En effet les algorithmes, modèles et jeux de données de nouvelle génération basés sur les technologies les plus récentes de deep learning (notamment de type Transformer) sont pratiquement exclusivement en langue anglaise. Parallèlement le domaine du résumé automatique est confronté depuis longtemps au manque de métriques fiables d'évaluation de la qualité des résumés fournis; ce manque de métriques d'évaluation est un frein majeur à l'industrialisation et au déploiement des technologies de résumés automatiques pour lesquels des critères de confiance et de pilotage sont indispensables. L'objectif du projet est multiple : (a) Mettre au point de nouvelles méthodes d'évaluation de la qualité des résumés automatiques produits par l'IA afin de piloter la qualité du résumé, notamment suivant les critères suivants: extraction des éléments importants, maîtrise de la longueur et fluidité; (b) Constituer des corpus de référence de longueurs, typologies et thématiques variées; (c) Améliorer les technologies de résumés (fine tuning)