Thèse soutenue

Classification automatique à partir d’un flux de documents

FR  |  
EN
Auteur / Autrice : Joris Voerman
Direction : Jean-Marc Ogier
Type : Thèse de doctorat
Discipline(s) : Informatique
Date : Soutenance le 13/06/2022
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : École doctorale Euclide (La Rochelle ; 2018-....)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image, Interaction (La Rochelle)
Jury : Président / Présidente : Mathieu Roche
Examinateurs / Examinatrices : Jean-Marc Ogier, Mathieu Roche, Jean-Philippe Domenger, Nicole Vincent, Nathalie Girard, Vincent Poulain d'Andecy, Mickaël Coustaty, Aurélie Joseph
Rapporteurs / Rapporteuses : Jean-Philippe Domenger, Nicole Vincent

Résumé

FR  |  
EN

Les documents administratifs sont aujourd’hui omniprésents dans notre quotidien. Nombreux et diversifiés, ils sont utilisés sous deux formes distinctes : physique ou numérique. La nécessité de passer du physique au numérique selon les situations entraîne des besoins dont le développement de solutions constitue un domaine de recherche actif notamment d’un point de vue industriel. Une fois un document scanné, l’un des premiers éléments à déterminer est le type, la classe ou la catégorie, permettant de faciliter toutes opérations ultérieures. Si la classification automatique est une opération disposant de nombreuses solutions dans l’état de l’art, la classification de documents, le fort déséquilibre au sein des données d’apprentissage et les contraintes industrielles restent trois difficultés majeures. Ce manuscrit se concentre sur la classification automatique par apprentissage de documents à partir de flux industriels en tentant de solutionner ces trois problèmes. Pour cela, il contient une évaluation de l’adaptation au contexte des méthodes préexistantes ; suivie d’une évaluation des solutions existantes permettant de renforcer les méthodes, ainsi que des combinaisons possibles. Il se termine par la proposition d’une méthode de combinaison de modèles sous la forme de cascade offrant une réponse progressive. Les solutions mises en avant sont d’un côté un réseau multimodal renforcé par un système d’attention assurant la classification d’une grande variété de documents. De l’autre, une cascade de trois réseaux complémentaires : un pour les images, un pour le texte et un pour les classes faiblement représentées. Ces deux options offrent des résultats solides autant dans un contexte idéal que dans un contexte déséquilibré. Dans le premier cas, il équivaut voire dépasse l’état de l’art. Dans le second, ils montrent une augmentation d’environ+6% de F0,5-Mesure par rapport à l’état de l’art.