Modèle génératif de synthèse structurée conditionnée sur des données faiblement structurées
Auteur / Autrice : | Tristan Luiggi |
Direction : | Laure Soulier, Vincent Guigue |
Type : | Projet de thèse |
Discipline(s) : | Sciences et technologies de l'information et de la communication |
Date : | Inscription en doctorat le 16/09/2021 |
Etablissement(s) : | Sorbonne université |
Ecole(s) doctorale(s) : | École doctorale Informatique, télécommunications et électronique de Paris |
Partenaire(s) de recherche : | Laboratoire : LIP6 |
Mots clés
Mots clés libres
Résumé
Le projet de la société Upskills R&D s'inscrit dans un contexte de support et d'innovation dans le secteur bancaire permettant 1) de manipuler/traiter des données complexes et hétérogènes et 2) de raisonner sur ces données pour l'aide à la prise de décision. Les banques d'investissement vendent et achètent des produits financiers, échanges sur les marchés de capitaux. Ces produits financiers sont multiples, mais ont pour fonction essentielle la maıtrise des risques (e.g., des risques de taux de changes, de contrepartie, ou de taux d'intérêts). Afin de prendre des décisions, les entreprises, les banques, ont besoin de comprendre ces informations complexes, composées et hétérogènes. Il est donc nécessaire de dépasser l'analyse quantitative souvent trop difficile à traiter par l'humain pour fournir à l'utilisateur final une synthèse des informations. Cette synthèse peut prendre par exemple la forme de texte en langage naturel ou d'un graphe de connaissances déduit a partir des documents. En particulier, dans le cas de la société Upskills R&D, les données a traiter sont des produits financiers, appelés produits structures. Un produit structure est un produit financier complexe permettant de protéger le capital investi tout en s'exposant a des risques de manière finement contrôlée, afin de calibrer sa rentabilité. Les produits structures peuvent être considères comme des assemblages de produits financiers simples (action, obligation, options, etc). Cependant, il n'existe aucune règle sur la manière de créer ces assemblages et les seules limites de conception sont l'imagination du banquier et sa capacité à calculer un prix adapte a ces produits. Pour les produits structures simples, des systèmes d'extraction d'informations bases sur des règles explicites peuvent être mis en uvre, mais cette approche se révèle difficile à maintenir et peu évolutive pour de nouveaux types de produits. Ainsi, des approches par apprentissage statistique sont pertinentes pour analyser des documents et extraire des informations utiles, de manière robuste, tout en tenant compte de la variabilité et de l'évolutivité du support. L'objectif de la thèse est d'automatiser l'analyse d'un corpus de documents structures hétérogènes dans le secteur bancaire. Pour cela, nous nous appuierons sur deux approches : 1. l'extraction d'information qui vise a extraire des entités (lieu, date, nom propres, ...) dans un document, 2. le data-to-text qui a pour objectif de générer des résumés textuels a partir de données numériques. Les deux approches combinées (extraction d'information et génération de textes) permettront de mettre en uvre des modèles dits de bout-en-bout (end-to-end) capables de comprendre les informations essentielles à l'humain pour la prise de décision. Nous nous appuierons sur des avancées récentes dans le domaine de l'apprentissage automatique et plus particulièrement du Deep Learning.