Détection des fraudes : de l’image à la sémantique du contenu : application à la vérification des informations extraites d’un corpus de tickets de caisse

par Chloé Artaud

Thèse de doctorat en Informatique

Sous la direction de Antoine Doucet et de Jean-Marc Ogier.

Soutenue le 06-02-2019

à La Rochelle , dans le cadre de École doctorale Euclide (La Rochelle ; 2018-....) , en partenariat avec Laboratoire Informatique, Image, Interaction (La Rochelle) (laboratoire) .

Le président du jury était Béatrice Daille.

Le jury était composé de Antoine Doucet, Jean-Marc Ogier, Béatrice Daille, Patrice Bellot, Nicole Vincent, Vincent Claveau, Petra Gomez-Krämer.

Les rapporteurs étaient Patrice Bellot, Nicole Vincent.


  • Résumé

    Les entreprises, les administrations, et parfois les particuliers, doivent faire face à de nombreuses fraudes sur les documents qu’ils reçoivent de l’extérieur ou qu’ils traitent en interne. Les factures, les notes de frais, les justificatifs... tout document servant de preuve peut être falsifié dans le but de gagner plus d’argent ou de ne pas en perdre. En France, on estime les pertes dues aux fraudes à plusieurs milliards d’euros par an. Étant donné que le flux de documents échangés, numériques ou papiers, est très important, il serait extrêmement coûteux en temps et en argent de les faire tous vérifier par des experts de la détection des fraudes. C’est pourquoi nous proposons dans notre thèse un système de détection automatique des faux documents. Si la plupart des travaux en détection automatique des faux documents se concentrent sur des indices graphiques, nous cherchons quant à nous à vérifier les informations textuelles du document afin de détecter des incohérences ou des invraisemblances. Pour cela, nous avons tout d’abord constitué un corpus de tickets de caisse que nous avons numérisés et dont nous avons extrait le texte. Après avoir corrigé les sorties de l’OCR et fait falsifier une partie des documents, nous en avons extrait les informations et nous les avons modélisées dans une ontologie, afin de garder les liens sémantiques entre elles. Les informations ainsi extraites, et augmentées de leurs possibles désambiguïsations, peuvent être vérifiées les unes par rapport aux autres au sein du document et à travers la base de connaissances constituée. Les liens sémantiques de l’ontologie permettent également de chercher l’information dans d’autres sources de connaissances, et notamment sur Internet.

  • Titre traduit

    Fraud detection : from image to semantics of content


  • Résumé

    Companies, administrations, and sometimes individuals, have to face many frauds on documents they receive from outside or process internally. Invoices, expense reports, receipts...any document used as proof can be falsified in order to earn more money or not to lose it. In France, losses due to fraud are estimated at several billion euros per year. Since the flow of documents exchanged, whether digital or paper, is very important, it would be extremely costly and time-consuming to have them all checked by fraud detection experts. That’s why we propose in our thesis a system for automatic detection of false documents. While most of the work in automatic document detection focuses on graphic clues, we seek to verify the textual information in the document in order to detect inconsistencies or implausibilities.To do this, we first compiled a corpus of documents that we digitized. After correcting the characters recognition outputs and falsifying part of the documents, we extracted the information and modelled them in an ontology, in order to keep the semantic links between them. The information thus extracted, and increased by its possible disambiguation, can be verified against each other within the document and through the knowledge base established. The semantic links of ontology also make it possible to search for information in other sources of knowledge, particularly on the Internet.


Il est disponible au sein de la bibliothèque de l'établissement de soutenance.

Consulter en bibliothèque

La version de soutenance existe

Où se trouve cette thèse\u00a0?

  • Bibliothèque : Université de La Rochelle. Bibliothèque numérique.
Voir dans le Sudoc, catalogue collectif des bibliothèques de l'enseignement supérieur et de la recherche.