APP下载

常用中文会议论文数据库的介绍与比较分析

2011-05-03易中梅单甜甜

图书馆学刊 2011年3期
关键词:查全率查准率字段

易中梅 赵 晶 韩 煦 单甜甜

(第二军医大学图书馆,上海 200433)

会议论文是一种特殊的信息资源,数量多、内容新、质量高、专业性强,是非常具有情报价值的一种文献,我国已经建成了一批会议论文数据库,常用的中文会议论文数据库有:《中国重要会议论文集全文数据库》(简称CPCD)、《中国学术会议论文全文数据库》(简称PACC)、《中国学术会议论文文摘数据库》(简称CACP)、《中国医药学术会议论文文摘数据库》(简称CMAC)、国家科技图书文献中心的《中文会议论文数据库》(以下简称中心)。笔者对它们的内容和设计进行了较为详细的比较分析,并对存在的问题提出了一些想法和建议。

1 会议论文数据库的内容比较与分析

表1 5个会议论文数据库的内容

从表1的提供单位可知,5个会议论文数据库由5个不同的单位提供,在学科覆盖范围上,只有一个医学会议论文数据库CMAC是专业性的,其他会议论文数据库都是综合性的,专业性的会议论文数据库太少,特色化会议论文数据库建设严重不足。

数据库最重要的元素是内容,而数据库提供单位的分散以及各单位之间缺乏沟通和统一将导致数据库重复建设,数据库重复建设必然会带来内容重复,内容重复的直接后果是严重浪费资源。笔者认为,我国会议论文数据库的建设必须规范化,形成统一认识,协作分工,而不是各自为政,数据库的数量不在多而在精,多增加各种专业性的会议论文数据库,应做好各综合性会议论文数据库之间的兼并与整合,充分发挥优势互补,建立一到两个高质量的综合性会议论文数据库,多建设特色化、专业化的会议论文数据库。

2 会议论文数据库的设计比较与分析

由于会议论文数据库建设的分散性,造成了数据库的形式各异,各个数据库在设计上有很大的差异。主要表现在如下几个方面:

2.1 检索界面的结构比较与分析

表2 5个会议论文数据库的检索界面

从表2可知,5个会议论文数据库检索界面的设计差异非常大,笔者认为,检索主界面的设计不宜复杂,各区的功能应该一目了然,简捷易懂,在数据库的设计中,检索提问表单和知识分类导航区是必需的,其他的能省则省,或者放到其他页面,同时要保持界面的稳定性,不可频繁更换界面,因为它是为学术研究者服务的,需注重严肃性[5]。

此外,独立的数据库最好有独立的检索界面,因为文献类型不同,检索字段的设置也应该不同,不能够一概而论。以中心为例,因其会议论文数据库要与其他类型的数据库共用一个检索界面,所以其检索字段的设置是大众型的,能够揭示会议论文特征的检索字段如会议名称、会议时间、会议地点等在检索界面就不会出现,但这些字段又是会议论文必须具备的,缺少了这些字段,很难保证检索的查准率。

最后,这种设计的差异性导致了各个数据库的检索规则不同,5个数据库有4种不同的检索规则,增加了用户的检索负担。必须解决这些异构数据库的统一检索,让用户熟悉了一种检索界面就可以轻松使用其他的数据库。这就要求对于国内会议论文数据库的建设提供一个统一的建库规则,在建库过程中严格遵循这一规则,做到规范统一。

2.2 知识分类导航检索体系的比较与分析

知识分类导航检索是在知识分类的基础上进行的一种检索,知识分类是以《中图法》为根基的,分类体系为等级列举式结构,它以事物的性质为基础,按照学科知识门类层次划分,并把划分出来的类目一一加以列举。

知识分类导航检索具有很高的利用价值,它有两种功能:第一,不用检索提问表单,直接用鼠标点击就可查到某一类目下的论文。第二,还可以配合检索提问表单,缩小或扩大检索范围,提高查准率或查全率。因而,CPCD、PACC和中心都提供了分类知识导航检索服务。

CPCD以“专题数据库”的形式设计CNKI知识仓库分类导航体系,将知识分为9个专题,分层次对知识按其属性及相互从属关系进行并行或树状排列,逐级展开。在分类检索中,可以通过导航逐步缩小范围,最后检索出某一知识单元中的文章;在初级检索和高级检索中,根据各篇论文所涉及的学科知识属性,在检索的时候可以选择全选,选择多个专辑或选择多个下位的子栏目,这样可以节省检索的时间,提高查准率。

PACC按《中国图书资料分类法》将其知识分为26个大类,直接点击某一个大类就可以看到该大类下的所有会议论文的题录。

中心也按《中国图书资料分类法》分类,共分19个大类,点击某个大类,再选择会议论文数据库也可看到该类目下的所有会议论文。

可见,PACC和中心只具备第一种功能,而CPCD则具备了两种,因而比较而言,CPCD的知识分类导航检索服务做得更成功,值得其他数据库借鉴。

目前,大多数会议论文数据库的知识分类都是在传统分类法的基础上以主题与学科相结合的分类方式,按照从总到分的方式逐级展开,有较强的通用性和直观性。但是,由于分散建设数据库,出现了各数据库在知识分类上缺乏统一性,分类各异给读者的检索带来不便,容易造成漏检。因此,制定一套统一的网络信息资源分类法是建设会议论文数据库必须解决的问题。

2.3 检索字段设置的比较与分析

表3 5个会议论文数据库的检索字段

从表4可见,5个数据库的检索字段可谓五花八门。其中,最有特色的是PACC,它将检索字段分为《会议名录》和《会议论文》两种,且分别放在不同检索提问表单中,将揭示会议信息和会议论文的检索字段分开设计,使检索界面更加明了,可以作为其他数据库设置检索字段的参考。

选择检索字段是进行检索的前提条件,检索字段的设置必须以文献的种类属性为依据,要能揭示该检索系统的文献特征,否则会影响检索的查全率和查准率,如前所述,中心的检索字段设置过于大众化,完全不能揭示会议论文的信息,使得中心的会议论文检索非常不方便。

2.4 检索方式称谓的比较与分析

表4 5个会议论文数据库的检索方式

初级检索包括字段级检索和全文检索,适用于不熟悉多条件组合查询或SQL语句查询的用户,对于一些简单查询,建议使用该检索系统,但查询结果有很大的冗余;高级检索能进行几个检索字段的逻辑组合查询,又可称为逻辑检索;专业检索支持布尔检索、相邻检索、截断检索、同字段检索、同句检索和位置检索等全文检索技术,专业检索需用户建立检索表达式,非专业人士很难使用,但是查询结果冗余少、命中率高,对于专业人士来说非常有用;二次检索,在前一次检索结果的范围内继续检索,可以逐步缩小检索范围,简化检索表达式的书写;导航检索是指利用中图法的分类体系,将各学科、各门类的知识分为专题的形式,按其属性及相互从属关系进行并行或树状排列,逐级展开。通过初级检索、二次检索和导航检索的运用,完全可以满足专业检索表达式达到的检索精度,这对于非专业人士尤为有用。

从表3中我们可以看到,5个数据库的检索方式称谓互不相同。据笔者的了解,CPCD的检索方式称谓是正确的,万方数据资源系统PACC的一般检索包括了初级检索和高级检索,其所谓的高级检索需要构造检索式,称为专业检索更为合适;中心的普通检索相当于万方的一般检索,但其高级检索实际上属于专业检索。

笔者认为这几个数据库在检索方式的称谓上应该统一,特别是对于一般检索、初级检索、高级检索、专业检索这几种检索方式更应该弄清楚,否则会给用户带来不必要的麻烦。

3 查全率和查准率

查全率和查准率是评价和衡量数据库检索效果和功能的两项重要技术指标与重要参数。查全率是指被检出的相关文献占总文献内所有相关文献的百分比,查准率是指被检出的相关文献占被检出文献总数的百分比,即:查全率=检出的相关文献/实有相关文献,查准率=检出的相关文献/检出的全部文献。查全率是用来描述系统检出文献能力的一种尺度,查准率则是用来描述系统拒绝不相关文献的能力或检索精确度的一种尺度。

以“中心”为例,在作者项中输入王平,并在结果记录中进行二次检索,在全文项中输入作者的单位“重庆邮电学院邮政自动化研究所”,得到如下检索结果:

查询时间:0.918秒查询结果:共找9条记录10条/页 第1页序号 文献标题 作者1 电子商务环境下物流配送车辆计划调度系统的设计与实现 王平2 电子商务环境下物流配送车辆计划调度系统的设计与实现 王平3 电子商务时代的邮政运输路由规划技术 王平4 邮政客户服务中心的设计 王平5 电子商务环境下物流配送计划调度专家系统的设计与实现 王平6 邮政车辆计划调度系统的设计与实现 王平7 8敏捷制造模式下物流配送决策支持系统存储过程在ASP/ADO中的应用王平王平9 存储过程在ASP/ADO中的应用 王平

从以上的检索实例可知,仅仅9条记录,就有两条存在重复现象,其中记录1、2、5重复,8、9重复,影响了用户的查准率。可见检索工具的质量好坏对检索用户的检索效率有直接影响。

从内容方面来说,为了保证查全率,应该选择收录量多、收录年限长、更新频率快的数据库;要保证查准率,则应从文献的学科范围、收录时间等考虑。如查找医学会议论文最好在医学专业会议论文数据库CMAC中查找,查找1985年以前的会议论文必须在《国内专业会议资料数据库》中检索。还要注意数据库的设计、同类数据库的差异等,如PAPC不支持英文字符检索,在全文项中输入“PID”则返回0条记录,其他的会议论文数据库基本上都支持中英文字符检索,而且CPCD还有中文简体和中文繁体两种检索界面。

笔者在PACC中进行检索时,选择作者单位项,输入作者的单位“重庆邮电学院邮政自动化研究所”时,检索结果为0,这是因为结果记录中没有列出作者单位这一项。如前所述的“中心”,它与其他数据库共用一个检索界面,其检索字段的设置是大众型的,能够揭示会议论文特征的检索字段会议名称、会议时间、会议地点等就没有设置,而这又是会议论文所必须具有的。这两个例子反映的问题是检索字段要能揭示该检索系统的文献特征,不能够太少,也并非越多越好,最好是选择那些最能够揭示文献特征的检索字段,而且检索字段的选择最好与其结果记录列出的内容结合起来,即在结果显示记录中列出的题录项才在检索字段中显示出来,这样才不至于出现检索系统中有需要的论文却出现结果为0的情况。

4 小结

目前国内的5个主要会议论文数据库因其提供单位的不同,存在较为严重的内容重复、设计差异的问题,由此影响了检索的查全率和查准率,给读者的正常使用带来了诸多不便。随着互联网的发展,会议论文数据库的应用价值已经日益显现,其发展水平也亟待提高。各大数据库应从读者的利益出发,达成共识,分工协作,不断提高兼容性,才能更好地为读者提供优质服务。

[1] 李伟华.因特网上会议文献信息资源的分布与利用.情报探索,2010(1).

[2] 张元晶.依托TPI系统平台构建会议论文全文特色数据库.现代情报,2008(6).

[3] 宋如忆.科技信息检索与利用.上海:同济大学出版社,2003.

[4] 谈鹤玲.论我国学术期刊数据库的规范化建设.现代情报,2004(1).

[5]黄春燕,李玲.《中国期刊全文数据库》KNS3.5的评价分析.图书馆建设,2003(3).

[6] 沈艳红.信息检索中检索词的选择对查全率的影响.情报探索,2006(11).

[7] 李育嫦.文献检索中提高查全率与查准率的方法探讨.图书馆学研究,2002(11):92-95.

[8]王桂枝,陈建青,颜世刚.《中国医学学术会议论文数据库——CMAC》的研制与服务.中华医学图书馆杂志,2000(4).

[9] 王亮,郭一平.基于Web Service的异构数据库检索系统.大学图书馆学报,2004(1).

[10]韩红等.清华同方(CNKI)与重庆维普(VIP)网络版中文期刊全文数据库的比较研究.现代图书情报技术,2003(6).

猜你喜欢

查全率查准率字段
图书馆中文图书编目外包数据质量控制分析
海量图书馆档案信息的快速检索方法
基于数据挖掘技术的网络信息过滤系统设计
基于词嵌入语义的精准检索式构建方法
大数据环境下的文本信息挖掘方法
基于深度特征分析的双线性图像相似度匹配算法
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究
基于Web的概念属性抽取的研究