Thèse en cours

Modèle génératif de synthèse structurée conditionnée sur des données faiblement structurées

FR  |  
EN
Auteur / Autrice : Tristan Luiggi
Direction : Laure SoulierVincent Guigue
Type : Projet de thèse
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Inscription en doctorat le 16/09/2021
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris
Partenaire(s) de recherche : Laboratoire : LIP6

Mots clés

FR  |  
EN

Résumé

FR  |  
EN

Le projet de la société Upskills R&D s'inscrit dans un contexte de support et d'innovation dans le secteur bancaire permettant 1) de manipuler/traiter des données complexes et hétérogènes et 2) de raisonner sur ces données pour l'aide à la prise de décision. Les banques d'investissement vendent et achètent des produits financiers, échanges sur les marchés de capitaux. Ces produits financiers sont multiples, mais ont pour fonction essentielle la maıtrise des risques (e.g., des risques de taux de changes, de contrepartie, ou de taux d'intérêts). Afin de prendre des décisions, les entreprises, les banques, ont besoin de comprendre ces informations complexes, composées et hétérogènes. Il est donc nécessaire de dépasser l'analyse quantitative souvent trop difficile à traiter par l'humain pour fournir à l'utilisateur final une synthèse des informations. Cette synthèse peut prendre par exemple la forme de texte en langage naturel ou d'un graphe de connaissances déduit a partir des documents. En particulier, dans le cas de la société Upskills R&D, les données a traiter sont des produits financiers, appelés produits structures. Un produit structure est un produit financier complexe permettant de protéger le capital investi tout en s'exposant a des risques de manière finement contrôlée, afin de calibrer sa rentabilité. Les produits structures peuvent être considères comme des assemblages de produits financiers simples (action, obligation, options, etc). Cependant, il n'existe aucune règle sur la manière de créer ces assemblages et les seules limites de conception sont l'imagination du banquier et sa capacité à calculer un prix adapte a ces produits. Pour les produits structures simples, des systèmes d'extraction d'informations bases sur des règles explicites peuvent être mis en œuvre, mais cette approche se révèle difficile à maintenir et peu évolutive pour de nouveaux types de produits. Ainsi, des approches par apprentissage statistique sont pertinentes pour analyser des documents et extraire des informations utiles, de manière robuste, tout en tenant compte de la variabilité et de l'évolutivité du support. L'objectif de la thèse est d'automatiser l'analyse d'un corpus de documents structures hétérogènes dans le secteur bancaire. Pour cela, nous nous appuierons sur deux approches : 1. l'extraction d'information qui vise a extraire des entités (lieu, date, nom propres, ...) dans un document, 2. le ”data-to-text” qui a pour objectif de générer des résumés textuels a partir de données numériques. Les deux approches combinées (extraction d'information et génération de textes) permettront de mettre en œuvre des modèles dits ”de bout-en-bout” (end-to-end) capables de comprendre les informations essentielles à l'humain pour la prise de décision. Nous nous appuierons sur des avancées récentes dans le domaine de l'apprentissage automatique et plus particulièrement du Deep Learning.