Language models for document understanding

Thibault Douzon

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Modèles de langages pour la compréhension de documents

FR |

EN

Auteur / Autrice :	Thibault Douzon
Direction :	Christophe Garcia, Stefan Duffner
Type :	Thèse de doctorat
Discipline(s) :	Informatique
Date :	Soutenance le 24/10/2023
Etablissement(s) :	Lyon, INSA
Ecole(s) doctorale(s) :	École doctorale en Informatique et Mathématiques de Lyon (Lyon ; 2009-....)
Partenaire(s) de recherche :	Membre de : Université de Lyon (2015-....)
	Laboratoire : LIRIS - Laboratoire d'Informatique en Image et Systèmes d'information (Rhône ; 2003-....) - Laboratoire d'InfoRmatique en Image et Systèmes d'information / LIRIS
	Equipe de recherche : imagine - Extraction de Caractéristiques et Identification
Jury :	Président / Présidente : Jean-Marc Ogier
	Examinateurs / Examinatrices : Christophe Garcia, Stefan Duffner, Jean-Marc Ogier, Aurélie Lemaitre, Thierry Paquet, Salvatore-Antoine Tabbone
	Rapporteurs / Rapporteuses : Aurélie Lemaitre, Thierry Paquet

Mots clés

FR |

EN

Mots clés contrôlés

Apprentissage profond

Intelligence artificielle

Mots clés libres

Informatique

Apprentissage Machine

Apprentissage Profond

Apprentissage Auto-Supervisé

Modèle de langage

Transformeur robuste

Compréhension des Documents

Extraction d'Information

Traitement de documents

Résumé

FR |

EN

Chaque jour, les entreprises du monde entier reçoivent et traitent d'énormes volumes de documents, entraînant des coûts considérables. Pour réduire ces coûts, de grandes entreprises automatisent le traitement documentaire, visant une automatisation complète. Cette thèse se concentre sur l'utilisation de modèles d'apprentissage machine pour extraire des informations de documents. Les progrès récents en matière d'architecture de modèle, en particulier les transformeurs, ont révolutionné le domaine grâce à leur utilisation généralisée de l'attention et à l'amélioration des pré-entraînements auto-supervisés. Nous montrons que les transformeurs, pré-entraînés sur des documents, effectuent des tâches de compréhension de documents avec précision et surpassent les modèles à base de réseaux récurrents pour l'extraction d'informations par classification de mots. Les transformeurs nécessitent également moins de données d'entraînement pour atteindre des performances élevées, soulignant l'importance du pré-entraînement auto-supervisé. Dans la suite, nous introduisons des tâches de pré-entraînement spécifiquement adaptées aux documents d'entreprise, améliorant les performances même avec des modèles plus petits. Cela permet d'atteindre des niveaux de performance similaires à ceux de modèles plus gros, ouvrant la voie à des modèles plus petits et plus économiques. Enfin, nous abordons le défi du coût d'évaluation des transformeurs sur de longues séquences. Nous montrons que des architectures plus efficaces dérivées des transformeurs nécessitent moins de ressources et donnent de meilleurs résultats sur de longues séquences. Cependant, elles peuvent perdre légèrement en performance sur de courtes séquences par rapport aux transformeurs classiques. Cela suggère l'avantage d'utiliser plusieurs modèles en fonction de la longueur des séquences à traiter, ouvrant la possibilité de concaténer des séquences de différentes modalités.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Modèles de langages pour la compréhension de documents

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Modèles de langages pour la compréhension de documents

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses