Identification des auteurs des documents arabes historiques en utilisant des techniques de l'apprentissage profond
Auteur / Autrice : | Michel Chammas |
Direction : | Abdallah Makhoul, Jacques Demerjian |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance le 15/12/2022 |
Etablissement(s) : | Bourgogne Franche-Comté |
Ecole(s) doctorale(s) : | École doctorale Sciences pour l'ingénieur et microtechniques (Besançon ; 1991-....) |
Partenaire(s) de recherche : | Laboratoire : FEMTO-ST : Franche-Comté Electronique Mécanique Thermique et Optique - Sciences et Technologies (Besançon) - Franche-Comté Électronique Mécanique- Thermique et Optique - Sciences et Technologies (UMR 6174) / FEMTO-ST |
Site de préparation : Université de Franche-Comté (1971-....) | |
Jury : | Président / Présidente : Saeed Salem |
Examinateurs / Examinatrices : Jacques Bou Abdo | |
Rapporteur / Rapporteuse : Saeed Salem, Mahmoud Barhamgi |
Mots clés
Résumé
Cette thèse présente un système adaptatif basé sur l'apprentissage profond pour l'identification des documents historiques Arabes non identifiés. Ce problème a toujours été une limitation pour l'étude des textes historiques, dont beaucoup de documents manquent d'informations sur leur origine, leur date, leurs auteurs et leurs caractéristiques paléographiques. Durant la dernière décennie, plusieurs travaux ont été publiés pour résoudre ce problème. Cependant, beaucoup d'ambiguïtés et de défis subsistent dans ce domaine. D'un autre côté, le manque des bases de données en Arabe a limité les progrès des algorithmes de test. Dans le cadre de notre travail au Centre des Humanités Numériques de l'Université de Balamand, nous avons constaté le besoin d'un système automatisé qui fonctionne sur la récupération des auteurs et copistes de documents historiques non identifiés. Ce centre possédait une large base de données unique qui contient un grand registre de manuscrits et de documents arabes historiques numérisés et transcrits. Il s'agit de plus de 567 manuscrits appartenant au centre et des centaines importés de différentes régions du Moyen-Orient. Cet immense corpus est défini par les caractéristiques importantes suivantes: un grand volume de patrimoine textuel conservé, une grande variété de formats de texte, une large période couverte (du XIIIe au XIXe siècle), une vaste étendue géographique (du Moyen-Orient et d'Afrique du Nord) et une grande variété de Vorlagen (traductions). Dans le cadre de cette thèse, une étude bibliographique a été réalisée pour étudier la performance de différents systèmes d'identification et de vérification existant. Par conséquent, nous avons étudié et proposé un système basé sur ''Scale-Invariant Feature Transform'' comme méthode d'extraction de caractéristiques couplé à un réseau de neurones convolutifs. Le système a été testé sur quatre grands ensembles de données différents : deux bases de données historiques latins, une base de données arabe moderne et la base de données de documents arabes historiques du centre de Balamand. Ce système a décroché la première position au concours ICFHR20. Notre système basé sur le réseau de neurones convolutifs a démontré son efficacité et précision dans la prédiction des auteurs pour les deux catégories : documents Latin et Arabes. De plus, l'intégration de ResNet dans e modèle a donné des résultats bien meilleurs pour la classification que les autres méthodes existantes traditionnelles.D'un autre côté, pour améliorer la précision de notre méthode nous avons étudié un système système end-to-end basé sur l'Apprentissage profond comme une solution unique, au lieu des systèmes multi-pipelines traditionnels. Les résultats obtenus montre que notre système assure une meilleure précision (96.4 % mAP et 99.2 % accuracy) en comparant avec les différentes autres méthodes multi pypeline et end-to-end existante.