论我国学术文献数据库的质量调控
2017-04-22王丰年
【摘 要】我国学术文献数据库受缺乏统一规划、知识产权归属模糊等因素影响,导致录入失真、录入误差、数据检测技术失效等问题,影响了用户的检索,降低学术文献数据库使用的性价比,阻碍了学术文献数据库的规模化和国际化。需要从政府调控、提升文献数据库的技术开发水平、完善学术文献数据库的标准化、建立学术文献数据库的评价体系等方面,提高学术文献数据库的质量。
【关 键 词】学术文献数据库;学术文献数据库质量;改进对策
【作者单位】王丰年,《清华大学学报》编辑部。
20世纪80年代,我国的学术文献数据库开始建设;90年代以后,中国知网、万方数据库、龙源期刊网、维普数据库进入商品化和产业化。本文以国内商用广泛、影响較大的学术文献数据库中国知网、万方数据库、龙源期刊网、维普数据库为例,分析我国学术文献数据库的质量现状,提出调整对策。
一、学术文献数据库的质量问题
虽然我国学术文献数据库像中国知网、万方数据库、龙源期刊网、维普数据库在数量上发展很快,大有遍地开花之势,但是存在录入失真、数据遗漏、数据检测技术失效等问题。
1.录入失真
虽然学术文献数据库已经把纸版期刊的文章数字化,但是,如果用户下载文章仍然需要使用文字识别软件,将图形文字转化为文本文字,那么这种转化就可能产生误差,容易出现乱码。
由于我国各个学术文献数据库阅读器格式不同,既有兼容图文的PDF格式,也有纯文本的TXT格式,以及网页WEB格式,导致文字、图像、表格使用不同格式的阅览器时呈现的清晰度不同,而且在信息压缩、信息存储方面还存在许多技术瓶颈,没有解决图像质量和信息压缩比例的矛盾,这些影响了阅读、下载文章界面的清晰程度。
很多学术文献数据库扫描纸版学术期刊后,将其分类、加工,放在数据库里,出售给用户。扫描仪的分辨率直接影响数据库文章的清晰度,笔者在检索学术文献数据库过程中,曾不止一次发现页面不清晰的情况。纸版学术期刊存放过程中,难免有划痕、涂抹、斑点,遗憾的是学术文献数据库连同这些瑕疵一起呈现给用户。如中国知网同一篇文章中的“、”位置不一,影响了读者的阅读体验。
2.数据遗漏
很明显的遗漏是很多学术文献数据库没有收录纸版学术期刊的封面和封底,这样,用户查不到封底标示的文章出版日期、刊号。很少学术文献数据库对某一期刊的收录从创刊开始,这导致用户的检索不完整。截至2012年10月,即使是收录规模较大的中国知网,虽然收录国内学术期刊7900多种,但是其中创刊至1993年的期刊也只有3500余种。
虽然各个学术文献数据库尽量齐全地收录重要会议论文、学术期刊、博士学位论文、工具书、年鉴,但是难免有遗漏。例如,中国知网已经收录了2011年第10—12期《世界经济研究》,但是2011年第9期却没有收录[2]。
3.数据录入错误
学术文献数据库的数据采集、整合、审校都需要人工操作,涉及人工操作的题名、文献分类录入差错会影响文件数据库的准确程度。
4.数据更新滞后
学术文献数据库完成全文收录,以及整理作者信息、篇名、关键词、摘要等一系列工作都需要一定的时间,更为关键的是,为了维持纸版学术刊物的发行量,学术文献数据库肯定不能和纸版学术刊物同步发行,即使录入流程较快的中国知网,也一般滞后纸版学术刊物1—3个月。
5.数据检测技术的失效
虽然有些学术文献数据库开发了学术不端论文检测系统,在一定程度上制约了学术造假现象,但是,这同时也促使学术造假不断升级。因为检测系统比对的是相同字段,只要换一种表达方式,例如改词、换句、改变描述方式、打乱段落顺序,即使观点、内容重复也查不出来。例如,在中国知网输入篇名《基于多中心治理的公共政策产出机制研究》搜索,出现18篇篇名相同或类似、作者相同的文章,其中16篇文章题目完全相同。中国知网的学术不端检测结果是否有效?
6.数据技术的误差
与计算机技术、网络技术、信息技术一样,学术文献数据库的技术支持一直处于完善的过程,计算机硬件的性能、计算机的存储容量和网络传输的准确性直接关系到学术文献数据库的质量。
除技术壁垒外,各个学术文献数据库在使用操作上存在不同程度的误差。例如如果用户浏览、下载需要利用文字识别软件,把图形文字转为文本文字,这种转化存在的误差会导致用户下载文字时出现乱码。
7.缺乏统一的标准化格式
无论是国家新闻出版广电总局,还是具体的编辑行业协会,都没有制定学术文献数据库的体例规范,所以,要“尽快制定各种数字出版相关的内容标准、格式标准、技术标准、产品标准、管理和服务标准” [3]。中国知网、万方数据库、龙源期刊网、维普数据库在数据的排列格式、主题标引等细节上都存在差异,导致同一主题或者同一文章在不同学术文献数据库中检索会出现不同的结果。有些图、表、符号的数字化存在技术瓶颈,因此,学术文献数据库的体例规范不能照搬纸版学术期刊。纸版学术期刊存在多种体例规范,仅仅以纸版刊物页下注为例,就有页下注、尾注、文中夹注等形式,有的将注释和参考文献混为一谈,导致学术文献数据库的体例规范五花八门。
因为我国没有学术文献数据库的统一技术标准,所以,出现了HTML、PDF、CAJ、DOC、 CEB、TEB……格式。用户需要下载PDF、CAJ等不同的浏览器或软件格式,才能浏览、下载各个不同学术文献数据库的文章。例如,万方数据库的数字化期刊子系统采用HTML和PDF文件格式;中国知网采用CAJ和PDF格式;维普数据库全文提供VIP格式和PDF格式(国际通用格式),阅读VIP格式全文需要安装维普公司的维普浏览器,阅读PDF格式全文需要安装Adobe Reader阅读软件。由于中国知网、万方数据库、龙源期刊网、维普数据库等均采取保护自身利益的措施,导致无法实现学术资源的共享。
除技术壁垒外,各个学术文献数据库的使用技术还有待完善,例如有些用户在使用学术文献数据库过程中即使已经确认订阅成功,却无法阅读所检索到的文章。
二、影响学术文献数据库质量的原因
我国学术文献数据库受缺乏统一规划、知识产权归属模糊等因素影响,导致出现诸多质量问题。
1.缺乏统一规划
中国知网、万方数据库、龙源期刊网、维普数据库是当前国内使用广泛的学术文献数据库,但是它们在内容、使用方式、经济模式 、技术开发等关键环节上各自为政,甚至设置技术壁垒,造成相似技术含量的纸版期刊重复收录。
2.知识产权归属模糊
由于学术文献数据库存在使用纸版期刊文献不规范、版权之争,甚至盗版现象,中国知网、万方数据库、龙源期刊网、维普数据库等很难直接联系作者授权,导致作者与学术文献数据库、纸版学术期刊之间经常发生利益纷争,甚至诉诸法庭,中国知网、万方数据库都曾遭遇群体侵权诉讼。2008年,北京海淀区法院审结了284名硕士、博士起诉万方数据公司侵权案,其中234人得到法院的判决支持,胜诉率达80%[4]。学位论文的著作权归属不清晰是万方数据公司被诉的原因之一。
3.数据库编辑水平有待提高
学术文献数据库的软件选择、计算机设备的运用、操作系统的维护都需要人工完成,数据库编辑的教育背景、知识结构都会直接影响数据库的质量。因为缺乏既有编辑学知识又精通计算机软件知识的编辑人才,所以在学术文献数据库建设中,经常出现数据整合误差、数据信息不完整等问题。
4.学术文献数据库监管疏漏
由于没有统一的管理机构和规范的制约,许多学术文献数据库都各自为政。作为正处于探索过程中的新兴行业,数字出版在获得各国政府大力支持的同时,却缺乏包括学术文献数据库质量在内的版权、产业链与盈利模式的监管。
5.缺乏科学的数据库评价体系
虽然纸版学术期刊评价存在不少问题,但是,学术文献数据库的评价处于空白状态。统计学术文献数据库涉及图表文章的点击率、下载率需要高精度的图像输入、输出控制和色彩管理,学术文献数据库的定量评价需要很大的投入,定性评价也需要很多学科专家协助。
三、学术文献数据库质量问题引发的后果
学术文献数据库的质量问题引起了个人和集体用户的不满,因此产生了一系列不良后果。
1.降低学术文献数据庫的性价比
虽然各个学术文献数据库收费不一,但是都存在不同程度的收录遗漏。如果用户检索的文章恰恰被学术文献数据库遗漏,那么,无论用户花费多少钱以包年、 包月方式购买,都是在花冤枉钱。
2.增加用户不必要的时间成本
万方数据库既没有登录时间和用户数量的限制,也不会出现因用户数庞大而无法浏览、下载全文的情况,所以减少了用户的时间成本。而中国知网设置了用户登录时间限制,导致用户反复重新登录,增加了用户不必要的时间成本。中国知网还对包库用户设置了并发用户数的限定,造成因并发用户数已满而无法下载、阅读的情形,这无疑增加了用户的时间成本。
3.影响学术文献数据库的规模化
我国学术文献数据库存在散、乱、杂的弊端,并且呈现遍地开花的趋势。没有任何学术机构、政府机构统计学术文献数据库的总量,也没有有效方法进行统计。有些学术文献数据库无人问津,点击量甚至比纸版学术期刊的发行量还惨淡。学术文献数据库检索平台很难统一、学术文献数据库的重复建设导致同行业恶性竞争,不利于学术文献数据库的规模化发展。
4.制约学术文献数据库的国际化
国际上有代表性的4种外文电子期刊全文数据库——Elsevier SDOS、EBSCOhost、Springer LINK、OVID,收录情况、学科范围、检索功能及结果处理都很完备,用户可以正确、准确、快速、有效地利用外文全文数据库进行文献信息检索。我国学术文献数据库过度商业化却制约了其国际化。
四、学术文献数据库的质量调控对策
学术文献数据库的质量问题引发了一系列后果,需要从增强政府调控、加强学术文献数据库建设以及提高学术文献数据库编辑的专业素质等角度,来提高学术文献数据库的质量。
1.加强政府的调控
当下,很多用户对学术文献数据库存在诸多不满,如没有合理有效的监督机制、技术混乱、高收费不良风气等。“要构建要素完整、结构合理、水平先进、效益良好、多方共赢的数字出版产业发展新格局,把数字出版产业打造成新闻出版支柱产业”[5],无论从学术还是从管理的角度看,国家新闻出版广电总局、国家科技部不仅要投入资金,还要发挥其协调和管理职能,定期检查学术文献数据库的质量。
2.提升文献数据库的技术开发水平
在技术支持、使用便捷程度上,学术文献数据库应该采取人工审校和程序控制双重把关的措施,定期维护、整理已经收录的文章,人工核对原始文献,利用软件的纠错功能来审校。
3.完善学术文献数据库的标准化
很多用户抱怨需要下载多个阅读器才能浏览、下载不同的学术文献数据库,有的学术文献数据库编排毫无美感,降低了用户的使用体验,这些问题需要数字出版标准规范。以参考文献和页下注为例,学术文献数据库需要将文字转化为编码,所以相比纸版学术期刊对体例规范的可操作性提出了更高的要求,还要兼容人文、社科等各学科的共性。芝加哥大学出版社1906年出版的《芝加哥文体手册》(The Chicago Manual of Style)是美国学术规范手册,之后不断补充修订,迄今已经发行了16版。我国应该参照纸版学术期刊的体例规范,建立学术文献数据库的标准,包括文献著录、标引的体例规范。2005年5月,国际标准化组织ISO批准PDF作为归档和保存文件的国际标准格式。目前,国际上通用的学术文献数据库阅读、下载格式PDF实施分层授权:可全文下载、部分下载、打印、不能打印、只读等。因此,要“加快推进数字内容出版系列标准自主研制以及与国际通用标准对接工作,尽快消除标准多元化造成的资源浪费、消费成本高和用户体验差等弊端,为数字出版产业的繁荣发展营造优良生态环境。”[6]
4.建立学术文献数据库的评价体系
按照客观性、公正性、权威性原则,建立我国学术文献数据库评价体系。“开展数字出版内容质量、编校质量、制作质量的检测与评估,提高企业生产优质精神食粮,传播民族优秀文化意识,引导企业在内容把关、编辑规范、质量保障等方面加大工作力度,改变数字出版优质内容匮乏现状,促进产业良性发展。”[7]
5.提高学术文献数据库编辑的专业技术水平
学术文献数据库编辑不仅要具备纸版刊物的编辑知识,还要掌握计算机、网络等方面的技能。从纸版刊物的文字转化为数据库的图像需要计算机技术,将 PDF和CAJ呈现给用户既需要计算机又需要网络调试技能。学术文献数据库编辑和纸版期刊编辑的具体工作方式、过程不同,纸版期刊编辑的主要工作是编辑、校对,扮演的是出版者角色;学术文献数据库编辑主要基于XML语言的网络化协同,处理电子文档,其工作流程由单文本编辑升级为多媒体编辑。学术文献数据库的原始著录、分类、主题标引,诸如原始文献中图分类号的纠错既需要编辑学的知识,又需要计算机、网络图像处理技术。因此,“要不断完善数字出版人才培养体系,加大数字出版人才培养力度”[8],建立更多数字出版研发机构、院校,培养适应数字出版的人才,像北京印刷学院新闻出版学院首届数字出版专业毕业生68人,就业率达到100%[9],吉林工程技术师范学院与吉林日报社(吉林日报报业集团)联合成立股份制二级学院——吉报数字传媒与创意学院,2016年首届招生160人[10]。作为北京印刷学院的学生实践基地,清华大学出版社期刊中心每年都有北京印刷学院的优秀硕士生前来实习。
6.建立学术文献数据库协会
国家新闻出版广电总局、科技部、财政部应协调中国知网、万方数据库、龙源期刊網、维普数据库等成立学术文献数据库的行业协会,召开数字技术创新、经营模式的改进、数字出版的法律保护等研讨会,提升学术文献数据库的数字技术创新能力,减少各个文献数据库之间的恶性竞争。
参考文献
[1]http://www. cnki. net/KCMS/detail/detail. aspx?QueryID=1&CurRec=83&recid=&filename=QBZZ200401047&dbname=CJFD2004&dbcode=CJFQ&pr=&urlid=&yx=&uid=WEEvREcwSlJHSldRa1FhcEE0L01SOC9NcklCUENmU3hVTHV5aGxJbG5wbz0=$9A4hF_YAuvQ5obgVAqNKPCYcEjKensW4ggI8Fm4gTkoUKaID8j8gFw!&v=MDcxNzJUM3FUcldNMUZyQ1VSTHllWnVabUZpRGtVTDdJTkMvUmRMRzRIdFhNcm85Qlk0UjhlWDFMdXhZUzdEaDE=.
[2]http://bbs. pinggu. org/forum. php?mod=viewthread&tid=1380425&page=1.
[3][5][8]关于加快我国数字出版产业发展的若干意见[EB/OL]. http://www. gapp. gov. cn/contents/1832/113636. html.
[4]张蕾. 480名硕博士状告万方数据库侵权案开庭[D].北京晚报,2008-09-22.
[6][7]关于加强数字出版内容投送平台建设和管理的指导意见[EB/OL].http://www. gapp. gov. cn/news/1663/185929. shtml.
[9]尹琨,李淼. 数字出版人才供需:热门专业能否适用[D]. 中国新闻出版报 ,2013-02-28.
[10]宋嘉庚,郝振省. 双重效应下的数字出版人才培养探析[J]. 出版广角,2016(19).