Thèse en cours

Traitement de textes longs par apprentissage profond

FR  |  
EN
Auteur / Autrice : Eve Sauvage
Direction : Cyril Grouin
Type : Projet de thèse
Discipline(s) : Informatique
Date : Inscription en doctorat le 02/10/2023
Etablissement(s) : université Paris-Saclay
Ecole(s) doctorale(s) : École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire interdisciplinaire des sciences du numérique (Orsay, Essonne ; 2021-....)
Equipe de recherche : SEME
Référent : Université Paris-Saclay. Faculté des sciences d’Orsay (Essonne ; 2020-....)

Résumé

FR  |  
EN

Les modèles d'Intelligence Artificielle pour les données textuelles et orales ont connu des avancées techniques importantes depuis la création de l'architecture « Transformer » en 2017 (Vaswani et al., 2017), un réseau de neurones profond. Plusieurs cas d'usages de ces modèles ont été explorés à EDF R&D, comme le résumé automatique de document, et la génération de texte pour la complétion automatique d'e-mails. Grâce à leur « mécanisme d'attention », ces modèles montrent de très bonnes performances. Ce mécanisme comporte toutefois des limites : il demande des ressources en mémoire matérielle importantes, et ne peut traiter des textes très longs. Cela a pour conséquence (i) une consommation d'énergie importante, (ii) des données textuelles qui ne sont pas pleinement exploitées, car les textes doivent être tronqués lorsqu'ils sont trop longs avant d'être passés au modèle. Plusieurs travaux de recherche traitent ce problème, et ont proposé des approches permettant de traiter des textes plus longs. Ces modèles sont rangés sous la catégorie des « Efficient Transformer », et un benchmark spécifique leur est consacré (Tay et al., 2020). Toutefois, la longueur du texte traité demeure limitée à ce jour. L'objectif de la thèse est de proposer une solution pour lever cette limite. La personne recrutée devra : - établir un état de l'art sur les réseaux de neurones profonds de type « Efficient Transformer » et sur les méthodes d'extraction d'information et sur les méthodes d'évaluation de la performance des modèles d'IA pour le résumé automatique de document et la génération automatique de texte. - concevoir et développer une solution, définir ou identifier des métriques d'évaluation. - mener des expérimentations sur : des cas métiers en Traitement Automatique du Langage Naturel (TALN) sur lesquels des livrables ont déjà été réalisés à EDF R&D via des modèles Transformer (résumé automatique, génération automatique de texte) ; une tâche hors TALN pour tester la généricité du modèle (exemple : prédiction de la consommation électrique). En complément de données métier, des données open source pourront également être utilisées à des fins de comparaison pour des publications scientifiques.