Segmentation d'articles mathématiques en vue d'une navigation et d'une meilleure exploitation du document mathématique
Auteur / Autrice : | Boucif Boukacem |
Direction : | Hubert Emptoz, Thierry Lafouge |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences de l'information |
Date : | Soutenance en 2005 |
Etablissement(s) : | Lyon, INSA |
Partenaire(s) de recherche : | Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....) |
Mots clés
Mots clés contrôlés
Résumé
Comme dans tous les domaines scientifiques, la production rédactionnelle des chercheurs en mathématiques s'exprime dans des formes relativement contraintes et normalisées. Les documents mathématiques ont des formes d'exposition classiques, dont certaines sont communes à différentes disciplines (présence de parties telles que résumé, conclusion, bibliographie. . . ) et d'autres plus spécifiques aux mathématiques (lemmes, théorèmes, démonstrations,. . . ). Cette discipline utilise de plus un langage symbolique composé de signes qui dans les documents, sont utilisés de différentes manières : soit dans le texte lui-même, soit dans les formules. Dans cette thèse, nous élaborons un travail qui permet de contribuer à l'analyse et la compréhension des contenus des documents mathématiques. Ce travail intervient notamment au niveau de la structure logique des documents pour améliorer leurs exploitations. Nous proposons deux méthodes pour segmenter ces documents mathématiques (la segmentation s'effectue sur des documents textuels et non sur leurs images) en unités autonomes en vue de la recherche d'information et de la navigation pour permettre un accès aux parties les plus pertinentes. Pour mener à bien ce travail, nous constituons un corpus d'articles mathématiques que nous analysons suivant des points de vue différents. Nous examinons plus particulièrement le langage spécifique des mathématiques pour segmenter ces articles en unités autonomes. Enfin, nous proposons différents parcours de navigation dans ce corpus afin de faciliter la recherche d'information.