Apprentissage automatique pour la génération de modèles de documents
Auteur / Autrice : | Nalin Srun |
Direction : | Baya Lydia Boudjeloud-assala |
Type : | Projet de thèse |
Discipline(s) : | Informatique |
Date : | Inscription en doctorat le 01/02/2025 |
Etablissement(s) : | Université de Lorraine |
Ecole(s) doctorale(s) : | IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES |
Partenaire(s) de recherche : | Laboratoire : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications |
Equipe de recherche : ORPAILLEUR |
Résumé
La génération automatique de documents, tels qu'un CV, un contrat ou un manuel d'utilisation, est un domaine de l'intelligence artificielle qui vise à produire automatiquement du contenu textuel à l'aide de modèles informatiques. L'objectif de cette thèse est de développer des algorithmes d'intelligence artificielle capables de générer des modèles de documents de différents types (contrats, factures, formulaires, etc.). L'objectif sera d'identifier automatiquement les objets sémantiques et leur structure dans le texte, afin de détecter les éléments communs et variables au sein d'un cluster de documents similaires, puis d'extraire des règles de composition permettant la génération finale de nouveaux documents de ce type. La première étape consiste à utiliser les résultats d'un clustering multimodal de documents, en tenant compte de toutes les caractéristiques du document (texte, mise en page, figures, images, tableaux, etc.), pour identifier les attributs communs aux documents d'un même cluster. Ces attributs peuvent être des éléments textuels ou graphiques communs à tous les documents du groupe, des tendances ou des relations entre ces éléments. Ensuite, en utilisant les caractéristiques identifiées dans chaque cluster, nous extrairons automatiquement des règles de composition qui décrivent les structures ou les relations présentes dans les documents du même type. Une fois que la qualité et la pertinence des règles extraites auront été évaluées en les comparant aux connaissances existantes du domaine ou en les testant sur des données de validation, des modèles de documents seront générés en utilisant par exemple des approches d'apprentissage profond.