国内主要学术会议论文数据库的建设和利用研究
2017-04-19杨菲
杨菲
【摘 要】文章简要分析了我国主要学术会议论文数据库的建设与利用现状,分析对比了三大会议论文数据库的数据结构、更新频率、服务方式,提出了建设和开发我国学术会议文献资源的若干意见及对策,各公益机构和数据库制造商之间应协同合作,资源共享,以进一步提高会议文献的利用率,为读者提供更加优质的服务。
【关键词】会议 文献 数据库 数字化 资源共享
一、研究背景
会议文献是指在各类学术会议上宣读的论文、论述、总结等形式的文献,包括会议前参加会议者预先提交的论文文摘、在会议上宣读或散发的论文、会上讨论的问题、交流的经验和情况等经整理编辑加工而成的正式出版物[1]。文献是进行学术交流的重要知识资源,大多数会议文献都具有独到的学术见解和新颖的学术观点,学术质量较高。许多会议文献还公布科研人员取得的新进展与新成果,并提出新的研究课题和新的研究设想。因此,会议文献往往具有专业性强、学术水平高、内容新颖、信息量大、可靠性强、出版速度快及发行方式灵活等特点[2]。
会议论文作为仅次于科技报告的十大情报源之一,代表了一个国家或地区在某一时期,在相关学术领域内取得的最高学术水平,是进行科学研究的文献信息保障,具有较高的学术价值和情报价值,是推动人类社会发展、科技进步的必备文献之一。
近年来,随着数字化加工、处理技术及信息检索技术的迅猛发展,各大图书馆以及数据库商开始将会议论文数字化,以期为受众提供更加便捷的数据服务。目前,国内综合性学术会议论文数据库主要有三个:CNKI的 《中国重要会议论文全文数据库》、万方数据的《中国学术会议文献数据库》、上海图书馆的《全国学术会议篇名数据库》。
本文通过对这三个数据库的统计调查,对国内主要学术会议论文数据库的建设和利用状况进行了初步分析,特别关注了所面临的共同问题,分析其产生原因并给出了相应对策与展望。
二、国内主要学术会议论文数据库开发所处的环境
(一)政治环境
近年来,政府在工作报告中指出,要“引导科研机构、高等院校的科研力量为企业研发中心服务,提高原始创新能力”。坚定不移地实施“国家知识产权战略”“倡导学术诚信、鼓励独立思考、保障学术自由、弘扬科学精神”。在政策的保障和推动下,学界的主动性明显增强,学术交流活动日见活跃,呈现出蓬勃发展的态势。
(二)经济环境
目前,整个市场经济正步入转型升级的阶段,各领域之间的渗透交融越来越明显。科研人员、教育界人士、政府机构对学术会议转化的成果需求日益旺盛,愿望日益迫切。传统图书情报机构对于会议文献的揭示已经难以满足受众的需求,需要寻求更为高效、精确的揭示途径和呈现模式。
(三)社会环境
《中国重要会议论文全文数据库》和《中国学术会议文献数据库》的总部在北京,《全国学术会议篇名数据库》总部在上海。京沪两地历史悠久,文化积淀深厚,在上海能感受到海纳百川的思想碰撞,北京更是汇聚了大量优质的教育文化资源,国内高质量的学术会议有很大部分都选择在这两地召开,办会条件成熟度高,具备明显的资源优势。
(四)技术环境
数字化加工技术的进步,互联网技术的快速发展为会议文献的揭示和服务提供了良好的支持,数据库开发者得以运用这些成熟的技术,来构建会议论文资源,成为采集、加工、保存、服务的技术平台。并通过互联网向全国乃至全世界提供学术会议论文数据服务,实现资源共享。
三、学术会议论文数据库建设和利用的现状
《全国学术会议篇名数据库》由上海图书馆上海科技情报所制作。该库建库时间早,早在1958年零星的资料收集就已出现。该数据库正式始建于1982年,最初以微缩胶片形式发布全文,1998年开始建立光盘及网络版数据库。《中国学术会议文献数据库》由北京万方数据有限公司制作,始于1983年,于1995年建光盘库,1997年通过Chinainfo出网络版文摘库,2002年发布网络版全文库。万方数据有限公司成立于1993年,是一家以中国科技信息研究所为基础,直属科技部的股份制高新技术有限公司。《中国重要会议论文全文数据库》由清华同方知网(北京)技术有限公司制作,教育部主管,该数据库始于1999年,能实现多库并行检索,具有强大的综合优势。(参见表1)
(一)会议论文收录量
万方《中国学术会议文献数据库》以250多万篇的数据量独占鳌头,CNKI《中国重要会议论文全文数据库》以200多万篇紧随其后,上图《全国学术会议篇名数据库》为120万篇,数据量较少。
(二)檢索功能比较
基本的字段检索、高级检索和专业检索功能均无太大差异。万方和CNKI 均提供相似文献推荐服务,万方还提供与互动百科的词条链接服务;CNKI的分类导航、论文集导航和会议导航均做得较为出色,使用体验较佳。
(三)全文服务
万方和CNKI 均提供会议论文全文下载,会议论文索引免费获取,上图库仅提供篇名服务,需线下联系以获取全文。
学科导航(大类数量) 基本按照中图法,A大类不单列 分为十大专辑:基础科学、工程科技Ⅰ、工程科技Ⅱ、农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ、社会科学Ⅱ、信息科技、经济与管理科学。十专辑下又分为168个专题。 无
(四)数据库收录会议情况抽样比较
通过对三个数据库5年内的收录数据进行统计,在此基础上对相关类目进行抽样比较分析得出如下结果。
(五)会议论文收录情况比较(参见表2)
2008~2012年,万方收录论文集12593种,年均2546个会议;CNKI收录7897种,年均1379个会议;上图收录3076种,年均613个会议。
(六)会议论文收录学科分布情况比较
万方会议论文收录科技类占总量的83.58%,其中工业技术比例最大,占39.07%;CNKI科技类占总量的73.80%,其中工业技术占30.00%;上图科技类占总量的68.40%,工业技术占30.92%。万方会议论文科技类占比是三个库中最高的,工业技术也是三个库占比最高的大类。上图会议论文中社科类占比为三个库中最高。
(七)收录会议重复情况比较
从5年内的抽样统计结果看,万方收录的会议论文集数量与上图收录的论文集数量重复率在大约是上图的50%。同时,万方和CNKI的重复量也基本上占CNKI的二分之一。
从上述调研及统计中发现,在建设力度方面,公益机构(上图)对会议文献数字资源的建设力度并不大,开展的服务力度非常有限,利用率不高;在加工深度方面,仅仅停留在对文献的数字化扫描的数字化还原层面,远未达到资源的深度揭示。相比较公益机构的迟缓,嗅觉灵敏的商业机构却在资金技术人力方面加大投入,采用全文扫描识别技术,力图深度揭示文献内容的内在关联,为受众提供更加人性化、个性化的服务。
四、存在的问题与对策
通过以上分析比较,我们发现,目前三个国内主要会议论文数据库之间数据体量差异较大,有一定的重复率。同时,因为数据库制作者的不同,制作标准不一,对同一种会议文献,不同的单位可能按不同的文献类型来处理,规范程度也不尽如人意[3]。由此影响了会议论文数据的查全率和查准率,给受众的正常使用带来诸多不便。学术会议是新研究成果发布的重要场所。据统计,有近1/3的学术成果是在相关会议上首次公布的;学术会议对本学科领域重大事件的首次报道率也是最高的。可以这么说,只参考期刊文献,不参考会议文献,科研的开创性将不复存在。因此,各大数据库应以读者的利益为出发点,达成共识,分工协作,不断提高兼容性,才能更好地为读者提供优质服务。
(一)增进沟通,统筹规划
会议文献数量巨大,任何一家机构都不可能独立收全所有的学术会议文献。这就首先需要全国各文献情报机构精诚协作,整合分布在各高校图书馆、公共图书馆、情报机构、数据公司中的会议文献资源,将资源进行充分的梳理、组合;其次要借鉴运作模式相对成熟的数据公司的力量,依托公益机构专业的分类标引手段,将公众资源和商业力量进行统一的运作规划,联合共建从而合理分配使用社会资源。如此,必然可以减少重复建设,从而提供更丰富优质的服务。
(二)规范制作,深度揭示
在数据库建设过程中,有必要建立规范的会议文献数据库,将不同出版形式的会议文献统一纳入该数据库,按照会议文献的特征和著录规范进行著录。同时,对会议文献的开发不能停留在全文提供的层面,应认真调研,做好深层次开发的准备,以深度标引为基础,提高资源揭示的深度与内在关联性,进一步完善会议文献的数字化建设工作。在服务平台相关功能上,论文数据的精准定位、深度标引以及全文的可检索途径已成为服务平台不可或缺的功能之一,必须充分考虑并挖掘这一功能。
(三)丰富内容,深化服務
新一代的会议论文服务平台,不应当仅仅是提供论文检索的数据库,更应当以满足用户多样化需求为着力点,将服务延伸至会前、会中和会后。从会议预告到相关新闻,从篇目揭示到文献传递,从单向提供会议信息到支持用户发布相关信息,资源共享、开放协作将是未来会议文献数据库的发展趋势。
【参考文献】
[1]王冰,曹开玉. 军事情报网络资源检索理论与应用[M].北京:军事科学出版社,2007:508-512.
[2]李伟华,王通,顾英. 因特网上会议文献信息资源的分布与利用[J].情报探索,2010(1):87-88.
[3]朱江,陈漪红.科技会议文献管理与服务现状及改进对策[J].四川图书馆学报,2005(4):40-43.