Traitement de textes longs par apprentissage profond
Auteur / Autrice : | Eve Sauvage |
Direction : | Cyril Grouin |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 02/10/2023 |
Etablissement(s) : | université Paris-Saclay |
Ecole(s) doctorale(s) : | École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) |
Partenaire(s) de recherche : | Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....) |
Equipe de recherche : SEME | |
Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....) |
Mots clés
Résumé
Les modèles d'Intelligence Artificielle pour les données textuelles et orales ont connu des avancées techniques importantes depuis la création de l'architecture « Transformer » en 2017 (Vaswani et al., 2017), un réseau de neurones profond. Plusieurs cas d'usages de ces modèles ont été explorés à EDF R&D, comme le résumé automatique de document, et la génération de texte pour la complétion automatique d'e-mails. Grâce à leur « mécanisme d'attention », ces modèles montrent de très bonnes performances. Ce mécanisme comporte toutefois des limites : il demande des ressources en mémoire matérielle importantes, et ne peut traiter des textes très longs. Cela a pour conséquence (i) une consommation d'énergie importante, (ii) des données textuelles qui ne sont pas pleinement exploitées, car les textes doivent être tronqués lorsqu'ils sont trop longs avant d'être passés au modèle. Plusieurs travaux de recherche traitent ce problème, et ont proposé des approches permettant de traiter des textes plus longs. Ces modèles sont rangés sous la catégorie des « Efficient Transformer », et un benchmark spécifique leur est consacré (Tay et al., 2020). Toutefois, la longueur du texte traité demeure limitée à ce jour. L'objectif de la thèse est de proposer une solution pour lever cette limite. La personne recrutée devra : - établir un état de l'art sur les réseaux de neurones profonds de type « Efficient Transformer » et sur les méthodes d'extraction d'information et sur les méthodes d'évaluation de la performance des modèles d'IA pour le résumé automatique de document et la génération automatique de texte. - concevoir et développer une solution, définir ou identifier des métriques d'évaluation. - mener des expérimentations sur : des cas métiers en Traitement Automatique du Langage Naturel (TALN) sur lesquels des livrables ont déjà été réalisés à EDF R&D via des modèles Transformer (résumé automatique, génération automatique de texte) ; une tâche hors TALN pour tester la généricité du modèle (exemple : prédiction de la consommation électrique). En complément de données métier, des données open source pourront également être utilisées à des fins de comparaison pour des publications scientifiques.