3.2 分面叙词表的运用
一般地讲,编制分面叙词表都是针对某一学科专业领域的,这是因为不同学科专业领域的基本分面的划分是不同的,所以对于整个知识领域来说,建立一个统一的分面叙词表是非常困难的。因此,分面叙词表主要用于网上学术信息资源的组织,或者用于建立专业性搜索引擎。
网络信息分面叙词表有以下两个方面的作用:一是在信息标引的后台工作中,标引员利用分面叙词表对网页进行主题标引。一
方面,有利于分面组配提高描述特定信息资源的能力,另一方面,用分面组配公式来标引网页可以实现标引的一致性,进而提高标引质量。二是在信息检索的前台工作中,可向用户提供其输入的检索词的同义词和相关词,可同时提供多个主题领域的检索词,以供用户进行自由组配,通过这种组配,可达到较高的专指度。
采用这种组配方式可使用户拥有最大程度的决定权,即由用户从系统推荐的检索词中选择合适的词语,实现自由组配,从而避免了用户构造复杂的检索式。同时,在检索过程中,通过人机对话,由用户来判断与其检索最相关的文献。
4 按照分类主题一体化的原则改造网络信息组织
所谓分类主题一体化,是指将分类检索语言与主题检索语言融为一体,从而形成一种兼有两种语言的标引和查找功能的检索语言。传统分类法系统性较强,有利于族性检索,符合人们的思维、检索习惯,且在揭示数值、声像、空间对象等实体方面有其独特优势,但分类法体系复杂,不利于用户查全。传统主题法是用语词描述知识并按一定顺序排列,在主题检索中,夹杂大量不切题和无用信息,导致查准率低,有时甚至相当低。分类法和主题法两者的结合能较好地解决这一问题。
理想的网络信息资源检索语言应当是分类主题一体化语言。例如,在搜索引擎进行关键词检索时,可选择在所有站点或仅在此目录下进行检索,而且输出关键词检索结果时,列出相应的分类检索路径。
目前这种思路在“sina”搜索引擎中得以实现。例如,如果想查找“红楼梦”的相关信息,可在搜索框内键入关键词“红楼梦”,并单击旁边的搜索按钮,新浪搜索会先返回目录搜索结果“文学艺术>各类艺术>文学>各类文学>小说>古典小说>四大古典名著>红楼梦”,接下来就是关于“红楼梦”的网站的搜索结果。
有趣的是,在现行的搜索引擎中,不但体现了分类主题一体化思想,还根据实际需要在搜索结果中体现了分类、主题、文摘以及新闻服务四位一体的思想。比如,中文雅虎的搜索结果会从数据库中找出以下五个部分,按照顺序列出搜索结果:
分类类目 分类
网站名称 主题
网站描述 文摘
相关网页 主题
Yahoo!中国的相关新闻 新闻服务
但是,要实现网络信息的真正的分类主题一体化,还要做好以下三个方面的工作:
4.1 建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制。这样的知识分类体系必须坚持科学性与实用性的统一,结构要清晰,整个体系是动态的,可以采用超文本系统进行管理。
4.2 建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换。控制词表应当支持后控,以提高受控词的利用率和用户的交互能力。
4.3 建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主体的兼容。在搜索引擎生成索引数据库时形成包括分类标识和关键词标识的索引,同时分别为分类标识和关键词标识生成倒排挡,这样既加快了检索速度,又能同时以分类标识和关键词进行检索,提高查准率。
5 网络信息组织的目标——建立一套科学的网络信息分类体系