Thèse soutenue

Segmentation d'articles mathématiques en vue d'une navigation et d'une meilleure exploitation du document mathématique

FR  |  
EN
Auteur / Autrice : Boucif Boukacem
Direction : Hubert EmptozThierry Lafouge
Type : Thèse de doctorat
Discipline(s) : Sciences de l'information
Date : Soutenance en 2005
Etablissement(s) : Lyon, INSA
Partenaire(s) de recherche : Laboratoire : Laboratoire d'InfoRmatique en Images et Systèmes d'information (Ecully, Rhône ; 2003-....)

Mots clés

FR

Mots clés contrôlés

Résumé

FR  |  
EN

Comme dans tous les domaines scientifiques, la production rédactionnelle des chercheurs en mathématiques s'exprime dans des formes relativement contraintes et normalisées. Les documents mathématiques ont des formes d'exposition classiques, dont certaines sont communes à différentes disciplines (présence de parties telles que résumé, conclusion, bibliographie. . . ) et d'autres plus spécifiques aux mathématiques (lemmes, théorèmes, démonstrations,. . . ). Cette discipline utilise de plus un langage symbolique composé de signes qui dans les documents, sont utilisés de différentes manières : soit dans le texte lui-même, soit dans les formules. Dans cette thèse, nous élaborons un travail qui permet de contribuer à l'analyse et la compréhension des contenus des documents mathématiques. Ce travail intervient notamment au niveau de la structure logique des documents pour améliorer leurs exploitations. Nous proposons deux méthodes pour segmenter ces documents mathématiques (la segmentation s'effectue sur des documents textuels et non sur leurs images) en unités autonomes en vue de la recherche d'information et de la navigation pour permettre un accès aux parties les plus pertinentes. Pour mener à bien ce travail, nous constituons un corpus d'articles mathématiques que nous analysons suivant des points de vue différents. Nous examinons plus particulièrement le langage spécifique des mathématiques pour segmenter ces articles en unités autonomes. Enfin, nous proposons différents parcours de navigation dans ce corpus afin de faciliter la recherche d'information.