Thèse soutenue

Extraction de la mise en page de documents : application à la sécurisation des documents hybrides

FR  |  
EN
Auteur / Autrice : Héloïse Alhéritière
Direction : Nicole VincentJean-Marc Ogier
Type : Thèse de doctorat
Discipline(s) : Traitement du signal et des images
Date : Soutenance le 12/09/2019
Etablissement(s) : Université Paris Cité
Ecole(s) doctorale(s) : École doctorale Informatique, télécommunications et électronique de Paris (1992-...)
Partenaire(s) de recherche : Laboratoire : Laboratoire d'Informatique PAris DEscartes (Paris ; 1998)
Jury : Président / Présidente : Jean-Yves Ramel
Examinateurs / Examinatrices : Jean-Yves Ramel, Salvatore-Antoine Tabbone, Véronique Eglin, Laurence Likforman-Sulem, Florence Cloppet, Camille Kurtz
Rapporteurs / Rapporteuses : Salvatore-Antoine Tabbone, Véronique Eglin

Mots clés

FR  |  
EN

Mots clés contrôlés

Mots clés libres

Résumé

FR  |  
EN

Les documents numériques sont de plus en plus présents dans notre société. Ce format a de nombreux avantages, que ce soit pour la diffusion ou la sauvegarde de documents. La diffusion permet de transmettre facilement des documents, mais ne permet pas de garantir l'intégrité de ceux-ci, ni pour ceux qui le reçoivent, ni pour ceux qui le diffusent. Durant leur cycle de vie, les documents passent généralement d'un état dématérialisé à un état matérialisé et inversement. Les deux formats possèdent leurs avantages et leurs inconvénients, ce qui justifie qu’un même document puisse se retrouver dans les deux états. Lorsque l'on passe d'un format matérialisé à celui dématérialisé, nous obtenons une image, un ensemble de pixels qu’il faut interpréter. Les différentes instances d'un même document que nous pouvons obtenir en scannant ou en imprimant plusieurs fois celui-ci définissent le « document hybride ». Un premier niveau de comparaison peut être réalisé en analysant la mise en page du document. Les méthodes d'extraction de la mise en page sont nombreuses et nous les analysons pour mettre en évidence leurs défauts et leur adéquation à des catégories bien particulières de document. Aussi nous avons développé une méthodologie qui s'appuie sur de nouvelles transformées permettant d'innover dans le mode de représentation d'une image de document. Les segments de droites sont au centre de notre travail. Nous pouvons traiter des documents divers sans avoir recours à un apprentissage supervisé. Nous innovons aussi au niveau de l'évaluation de notre proposition. En effet, dans la perspective de la sécurisation d'un document hybride, à la précision d'une décomposition de la page, nous adjoignons la nécessité de résultats stables pour toutes les instances d'un document.