Thèse soutenue

Analyse intelligente de documents avec des approches neuronales

FR  |  
EN
Auteur / Autrice : Kim-Anh Laura Nguyen
Direction : Benjamin PiwowarskiJulio Laborde
Type : Thèse de doctorat
Discipline(s) : Sciences et technologies de l'information et de la communication
Date : Soutenance le 30/04/2024
Etablissement(s) : Sorbonne université
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : LIP6 (1997-....)
Jury : Président / Présidente : François Yvon
Examinateurs / Examinatrices : Pascale Sébillot, Antoine Gourru
Rapporteurs / Rapporteuses : Julien Velcin, Nathalie Aussenac-Gilles

Résumé

FR  |  
EN

Le domaine de l'Analyse de Documents (Document Understanding), dédié au traitement automatique des documents, fait face à des défis liés à leurs structures complexes et formats variés. Les documents possèdent rarement une structure strictement séquentielle. Leur présentation visuelle, notamment leur mise en page, contient une information sémantique riche, soulignant la nécessité d'inclure des informations multimodales dans les systèmes d'analyse de documents. Malgré des progrès notables découlant de l'avènement de l'apprentissage profond, le domaine doit relever des défis importants. Cette thèse traite deux défis clés : 1) développer des méthodes efficaces et efficientes pour encoder la nature multimodale des documents, et 2) formuler des stratégies pour le traitement performant et efficace de documents longs, en tenant compte de leur apparence visuelle. Pour répondre à la première question de recherche, nous développons des approches basées uniquement sur les informations de mise en page afin de construire des représentations pertinentes pour les tâches subséquentes. Les modèles pré-entraînés multimodaux existants étant développés sans considération d'efficience et n'exploitant pas pleinement la forte corrélation entre le texte et la mise en page, nous présentons un mécanisme d'attention exclusivement basé sur la mise en page, permettant d'améliorer les performances et de rendre l'attention plus parcimonieuse. De plus, nous proposons une stratégie basée exclusivement sur la mise en page pour résoudre les problèmes d'ordre de lecture. Bien que la mise en page capture l'ordre de lecture des documents, les méthodes de pré-entraînement existantes dédiées à l'analyse de documents s'appuient uniquement sur la Reconnaissance Optique de Caractères (OCR) ou l'analyse de PDF pour établir l'ordre de lecture des documents, introduisant potentiellement des erreurs qui peuvent impacter l'ensemble du processus de traitement du texte. Par conséquent, nous proposons un modèle qui exploite uniquement les informations de mise en page pour déterminer l'ordre de lecture des documents. Dans le cadre du deuxième axe de recherche, nous explorons le potentiel de la mise en page pour améliorer les performances des modèles pour les tâches liées aux documents longs et complexes. Pour pallier le manque de ressources et de méthodes pour la modélisation multimodale de documents longs, nous construisons une collection de jeux de données pour le résumé de documents longs avec prise en compte de leur apparence visuelle, et introduisons de nouveaux modèles pouvant traiter des documents longs en tenant compte de leur mise en page.