Thèse soutenue

Vers une approche discriminante pour la reconnaissance de mots manuscrits en-ligne utilisant des modèles de bi-caractères

FR  |  
EN
Auteur / Autrice : Sophea Prum
Direction : Jean-Marc Ogier
Type : Thèse de doctorat
Discipline(s) : Informatique et applications
Date : Soutenance le 08/11/2013
Etablissement(s) : La Rochelle
Ecole(s) doctorale(s) : École doctorale Sciences et ingénierie pour l'information, mathématiques (Limoges ; 2009-2018)
Partenaire(s) de recherche : Laboratoire : Laboratoire Informatique, Image et Interaction
Jury : Président / Présidente : Jean-Yves Ramel
Examinateurs / Examinatrices : Salvatore-Antoine Tabbone, Andreas Fischer, Muriel Visani
Rapporteur / Rapporteuse : Nicole Vincent, Jean-Philippe Domenger

Résumé

FR  |  
EN

Avec l’avènement des dispositifs nomades tels que les smartphones et les tablettes, la reconnaissance automatique de l’écriture manuscrite cursive à partir d’un signal en ligne est devenue durant les dernières décennies un besoin réel de la vie quotidienne à l’ère numérique. Dans le cadre de cette thèse, nous proposons de nouvelles stratégies pour un système de reconnaissance de mots manuscrits en-ligne. Ce système se base sur une méthode collaborative segmentation/reconnaissance et en utilisant des analyses à deux niveaux : caractère et bi-caractères. Plus précisément, notre système repose sur une segmentation de mots manuscrits en graphèmes afin de créer un treillis à L niveaux. Chaque noeud de ce treillis est considéré comme un caractère potentiel envoyé à un moteur de Reconnaissance de Caractères Isolés (RCI) basé sur un SVM. Pour chaque noeud, ce dernier renvoie une liste de caractères associés à une liste d’estimations de probabilités de reconnaissance. Du fait de la grande diversité des informations résultant de la segmentation en graphèmes, en particulier à cause de la présence de morceaux de caractères et de ligatures, l’injection de chacun des noeuds du treillis dans le RCI engendre de potentielles ambiguïtés au niveau du caractère. Nous proposons de lever ces ambiguïtés en utilisant des modèles de bi-caractères, basés sur une régression logistique dont l’objectif est de vérifier la cohérence des informations à un niveau de reconnaissance plus élevé. Finalement, les résultats renvoyés par le RCI et l’analyse des modèles de bi-caractères sont utilisés dans la phase de décodage pour parcourir le treillis dans le but de trouver le chemin optimal associé à chaque mot dans le lexique. Deux méthodes de décodage sont proposées (recherche heuristique et programmation dynamique), la plus efficace étant basée sur de la programmation dynamique.