Rétroconversion de documents mathématiques
Auteur / Autrice : | Jean-Yves Toumit |
Direction : | Hubert Emptoz |
Type : | Thèse de doctorat |
Discipline(s) : | Informatique |
Date : | Soutenance en 2000 |
Etablissement(s) : | Lyon, INSA |
Ecole(s) doctorale(s) : | Ecole doctorale Informatique et Information Pour La Societe. 1992-2009 (Lyon ; 1992-2008) |
Partenaire(s) de recherche : | Laboratoire : RFV - Laboratoire de Reconnaissance de Formes et Vision (Lyon, INSA ; 1995-2003) |
Mots clés
Mots clés contrôlés
Résumé
Cette thèse sur la dématérialisation des textes mathématiques concerne le monde de l'édition scientifique tout entier. Il n'existe en effet à l'heure actuelle aucune proposition permettant de convertir la masse de documents papiers (articles de revues, journaux scientifiques, ouvrages spécialisés, de vulgarisation ou scolaires) en documents numériques utilisables dans un traitement de textes. Le premier chapitre propose une vue d'ensemble des différents problèmes auxquels le chercheur est confronté dans ce domaine de pointe, en mettant en évidence les trois axes de recherche principaux : segmentation physique, étiquetage logique du texte et des mathématiques et reconnaissance d'expressions mathématiques. Le deuxième chapitre est consacré à la segmentation physique, étudiée spécialement dans le cadre des documents mathématiques. Après l'étude de l'existant, je montre comment les méthodes actuelles doivent être adaptées au cas particulier des documents mathématiques. L'étiquetage logique fait l'objet du troisième chapitre qui, après une brève présentation des travaux existants, propose une nouvelle méthodologie de séparation du texte des objets mathématiques, tenant compte de la particularité qu'a le texte mathématique de combiner ses deux composantes (texte, objets mathématiques). A la fin de ce chapitre, en utilisant une méthode classique de lecture automatique du texte, on est déjà en mesure de proposer une version HTML du document en conservant les formules mathématiques sous forme d'images. Le quatrième et dernier chapitre s'intéresse enfin à la reconnaissance de formules : celle-ci est en effet nécessaire pour parvenir à la rétroconversion complète du document et à une version LaTeX ou XML/MathML. Il présente des solutions pour les deux questions fondamentales dans ce domaine : la reconnaissance des caractères mathématiques et la structure des expressions mathématiques.