Exploitation automatique d'une base de données d'images à partir des informations textuelles jointes sur des bases cognitives
Auteur / Autrice : | Pascale Etchebès |
Direction : | Henri Madec |
Type : | Thèse de doctorat |
Discipline(s) : | Sciences du langage. Traitement automatisé du langage |
Date : | Soutenance en 2003 |
Etablissement(s) : | Besançon |
Partenaire(s) de recherche : | autre partenaire : Université de Franche-Comté. UFR des Sciences du langage, de l'homme et de la société |
Résumé
Notre sujet de recherche s'inspire de notre pratique professionnelle dans la constitution de bases de données d'images industrielles. Nous avons mené une mission d'automatisation d'une partie du fonds photographique des Chantiers de l'Atlantique à Saint-Nazaire. C'est à partir de cette expérience professionnelle que nous avons bâti notre projet. La photo industrielle montre les limites de l'approche habituelle de description qui consiste à lister les mots comme si le mot et sa trace écrite étaient liés à un référent stable et constitué. Notre conception du TAL nous conduit au-delà des mots, des termes et du langage. Notre approche est essentiellement conceptuelle. Le concept renvoie à la construction de la référence qui accompagne le mot : l'objet, l'action, la technologie, le sentiment, et ce à une époque donnée (l'univers de la construction navale peut avoir considérablement évolué de même que le sens des mots). Notre thèse consiste à proposer les principes de constitution d'une ontologie industrielle avec ses domaines, ses limites, ses activités, ses agents, ses produits, en tenant compte du fait que nous travaillons sur un média qui est la photo et qui justifie une rupture d'avec les solutions logicielles et documentaires proposées jusqu'à présent et qui ne prenaient en compte que du texte. Le travail est faiblement lexicologique ou terminologique. Ce n'est pas que le traitement linguistique est exclu de notre démarche. Le problème se posera avec acuité lorsqu'on se situera dans les interfaces en langage naturel.