Contribution à l'indexation des documents arabes historiques par des approches de Deep Learning

par Abir Fathallah (Abir)

Projet de thèse en Informatique, données, IA

Sous la direction de Mounim A. El yacoubi et de Najoua Essoukri Ben Amara.

Thèses en préparation à l'Institut polytechnique de Paris en cotutelle avec l'Université de Sousse , dans le cadre de École doctorale de l'Institut polytechnique de Paris , en partenariat avec SAMOVAR - Services répartis, Architectures, MOdélisation, Validation, Administration des Réseaux (laboratoire) et de ARMEDIA (equipe de recherche) depuis le 01-10-2018 .


  • Résumé

    Le traitement automatique des documents (manuscrits/imprimés) est un axe de recherche qui suscite un intérêt de plus en plus croissant. Cet intérêt est motivé par les nombreuses applications demandeuses d'un tel système automatique vu l'explosion du nombre de documents à traiter manuellement. Les documents peuvent être regroupés en imprimé/manuscrit, Arabe/Latin ou historique/récent. La méthode de traitement d'un document dépend de son type. On prend l'exemple de la méthode OCR « Optical Character Recognition » qui ne donne pas la même performance si on l'applique sur un document historique ou récent. Pour cela, le choix du type des documents est une exigence fondamentale pour le développement des approches performantes. Dans cette thèse, nous étudions l'indexation des documents arabes historiques. Il s'agit d'un besoin importants pour rendre le contenu d'un tel document accessible au public d'une manière simple et facile. On peut citer le cas d'utilisation où des historiens ou scientifiques doivent chercher un mot dans un texte de plusieurs pages. Ces tâches sont habituellement réalisées manuellement par des êtres humains et sont très couteuses en effort et en temps. Une automatisation informatique de ces tâches produirait des logiciels qui serviraient comme outils à indexer des grandes bases de données et faciliter la recherche de l'information.

  • Titre traduit

    Indexing of historical Arabic documents by deep learning approaches


  • Résumé

    Automatic processing of printed or handwritten documents is a research field drawing more and more interest. This interest is motivated by the numerous applications requiring such a system, due to the explosion of scanned documents that necessitate automatic processing to extract relevant information. Documents can be grouped into printed/handwritten, Arabic/Latin or historical/recent. The processing method of a document depends on its type. An example is the OCR “Optical Character Recognition” method which does not achieve the same performance if we apply it on a historical document or on a recent one. The choice of the document type, therefore, is fundamental for developing robust approaches. In this thesis, we will study indexing of historical Arabic documents. This task is fundamental to give access of such documents to the large public in a simple and easy manner. We can mention the use case where historians or scientists have to search a word, or a text within a document. These tasks are usually performed manually by humans but necessitate a huge amount of time and effort. An automatization of these tasks will produce software engines that will serve as tools for indexing large databases and hence make easy information search.