3.2 选择适用的编码语言
在数字图书馆元数据方案设计中,编码语言的选择也是关键步骤之一。目前,在DC系列元数据中通常使用HTML、SGML或XML。有比较才有鉴别和选择,我们不妨对这三种编码语言的优劣进行分析比较。
XML是SGML语言的一个子集,同HTML一起成为SGML家族的主要成员。SGML是一种元语言,可以用来定义其它更专门的标记语言。HTML是由SGML定义出来的,专门使用在WWW上的标记语言。SGML是很好的
资料存储格式,适用于任何复杂的文件,但不便于网络传输,SGML非常复杂,不易学习掌握。XML与HTML不同,XML是SGML的一个简化版本,实际上,XML也是一种元语言。与HTML不同的是,XML并没有语义上的元素定义,也没有预先定义好的一套标记系统。在实际应用中,可以根据需要定义自己的标记。XML是可扩展的,具有较强的灵活性和适用能力,同时它很有可能在今后成为应用最为广泛的标记语言。但是,目前,XML在网络上的应用不如HTML广泛。由于HTML文档本身的结构性不强,扩展能力差,描述内容的能力也较弱,因此不太可能成为今后数字图书馆元数据方案的主要编码语言。笔者建议,数字图书馆元数据方案的编码语言采用XML。
3.3 数字图书馆元数据方案的设计应面向专业编目人员
信息资源编目实际上是信息资源进行分析、判断和组织的过程。组织过程包括分类、描述、归并及格式化等过程;分析过程则包括区分、验证、评估、比较、解释及综合过程。[2]总之,信息资源编目是一个复杂的、信息增值的过程。目前,困扰信息资源编目的主要问题是费用。一是时间的花费,二是金钱的花费。费用问题使得许多元数据方案的设计者希望所研制的元数据可以由非专业人员制作。毫无疑问,非专业人员制作元数据的费用低,然而这种低费用是以牺牲元数据的质量为代价的。笔者认为,对于数字图书馆的建设而言,元数据的总体质量是不容忽视的。如果没有高质量的元数据,数字化信息资源的利用也就成为一句空话,甚至会像搜索引擎一样,查准率很低。所以,建议数字图书馆元数据方案的设计应面向专业编目人员。只有专业编目人员利用编目规则及书目控制等手段,才能够提供具有较高质量的元数据。
3.4 数字图书馆元数据方案的设计中应考虑到其它技术运用
在数字图书馆建设的过程中,必然要涉及到许多技术,其中包括数据库技术、全文检索技术、开放式网络词表/分类技术、地理信息系统(GIS)等。在数字图书馆元数据方案的设计中,我们需要与这些技术进行衔接并加以应用。以联合在线资源目录(Cooperative Online Resource Catalog,简称CORC)为例加以说明。CORC是建立在网络环境下的为本地或网络电子资源创建书目元数据的系统,是一种为电子资源编目的数据库和工具包。CORC利用了网上杜威分类法数据库,实现了编目过程中DDC号码和主题标目自动分配。同时,CORC数据库的软件平台采用Mantis,这是一种适用于任何元数据定义与界面的网络资源编目系统工具箱。Mantis用XML存储记录,使得记录的输出非常容易,且有MARC、DC HTML和DC RDF、XML多种格式可供选择。CORC的成功在于其能够充分利用各种技术。因此,我国在数字图书馆元数据方案的设计过程中,也需要考虑其它技术的运用。
【参考文献】
[1]CC:DA Task Force on metadata and Cataloging Rules:Final Report,August 21,1998[EB/OL].[2001—03—05]. http://www.ala.org/alcts/organization/ccs/ccda.
[2]真溱.矛盾重重的元数据世界[J].中国图书馆学报,2001,(6):56—59