公共图书馆商用数据库验收的困境与策略
2023-11-17万巧燕
万巧燕
(湖南图书馆,湖南 长沙 410011)
随着大数据时代的到来,访问更便捷、检索更高效的数字资源越来越受大众喜爱,也成为公共图书馆馆藏建设不可或缺的一部分,商用数据库的采购预算逐年增加。验收作为数字资源质量控制的重要一环,已然走入研究者的视野。当前,公共图书馆数字资源验收正处于指标界定不明确、统计维度不统一、人工验收工作量繁重等困境当中,必须制定可行、规范的策略加以应对。
1 公共图书馆商用数据库验收的内涵
国内最早对数字资源验收进行研究的是王欣、叶祥满[1]等人,他们从验收计量、内容验收、更新频率验收、检索功能验收等方面提出验收的几个维度,并从数字资源合同条款的拟定来探讨数字资源的质量控制。刘雪飞[2]采用《高校图书馆数字资源计量指南》中的计量指标作为验收参考,强调要在合同定制时明确双方权利、义务的特殊条款。晁行国[3]从高校图书馆数字资源的验收出发,在上述基础上提出验收要以采购内容、使用时间、适用空间为方向。万万[4]在《高校图书馆数字资源采购问题浅谈》中提到要组织验收专家组,从采购人员、技术人员、读者、财政人员多个方面组织验收。整体而言,数字资源验收在过去的十多年里取得了长足进展,基本上确定了验收的内容、维度,即便研究对象多为高校图书馆,对公共图书馆的数字资源验收也有借鉴意义。相比于高校,公共图书馆受众面更广,需求及访问形式更多样,验收工作面临更为严峻的挑战。
商用数据库是图书馆通过购买获得一定期限使用权或保存权的数据库。在合同有效期间,为最大限度保障馆方权益,以合同中验收、质保金等明文条款约束供应商,进一步控制数字资源质量。把握好数据库验收,不仅是保障馆方获得与合同相对应权利的应有之义,也是控制商用数据库质量不可或缺的重要环节。同时,在验收过程中收集整理的数据库建设数据、使用情况等,还可为来年数据库采购提供依据。
需要说明的是,数字资源范畴较大,数据库仅为其中一个类别。按《图书馆数字资源统计标准和应用指南》所述,数据库以供应商分割的最小销售单元在检索平台中以“库”的形式而非“专题”形式单独存在[5]。以皮书数据库为例,其设有“中国社会发展数据库”“中国经济发展数据库”“中国行业发展数据库”等专栏,但以皮书数据库为最小销售单元,统计时则计皮书为一个数据库。读者在图书馆能使用的数字资源,除了商用数据库之外,还包括自建资源、地方特色资源等。为严谨计,文中的数字资源仅指商用数据库。
2 公共图书馆商用数据库验收的困境
王欣[1]等在2012年提出数据库质量控制的7个步骤:(1)确定需进行质量控制的数据库;(2)确定数据库质量的特性值,即数量、内容、更新频率、可获得性和检索功能等;(3)确定数字资源的计量规格;(4)确定能准确检验特性值的验收手段;(5)进行实际检验并做好数据记录;(6)分析实际与质量要求特性值之间存在的差异;(7)反馈给供应商,进行纠正。后续的数据库验收研究基本上延续了该思路。在公共图书馆验收实践中,怎样界定不同类型数据库的计量规格、如何衡量特性值等问题需要进一步思考。
2.1 合同层面的困境
与数据库方签署的合同是开展数据库验收的主要依据。在验收实践中,因合同措辞表述不清带来的问题最直观,如资源量统计难,更新量、版权等的描述无法落实到具体验收环节等。
2.1.1 统计难——平台端口资源量表述不明
合同中约定的资源量,不同数据库商衡量的角度不一。馆方所购的是数据库在一段时间内的使用权,微信端、电脑端、App端等只是接入的方式不同,各平台读者能使用的资源量应当相等。举例说,合同上的条款描述为:“乙方为甲方提供微信公众号访问和数据接口等形式访问电子书1万本。”微信公众号可以单独挂链接,也可以开通微信小程序,而数据接口是一个更为宽泛的概念,是作为计算机软件开发商提供给用户或者第三方软件开发商的一系列标准规范,用于特定数据的交流[6]。约定好的1万本电子书,有部分数据库商设置电脑端、微信端各5000本,有部分数据库商会设置电脑端、微信端各1万本,有的数据库商设置电脑端1万本,出于版权考虑微信端提供2000本……种种问题,不一而足。如果合同中未详细描述资源量分布,每个平台资源足量自然符合验收要求,多个平台数量合计看似也达标,但在数据库实际使用时会造成许多麻烦。
多端口多平台也给数据库评价工作带来困难。访问量、下载量等是评价数据库使用情况的主要依据。部分数据库只能统计总体使用情况,少部分可精确到平台,但无法细化到不同端的不同入口,无法判断数据库在哪个平台哪个端口更受欢迎、更符合读者的使用习惯。对数据库的评价失衡,会错误引导不同平台端口的设置,甚至使采购需求的拟定产生偏差。
2.1.2 统计难——数字不准确,单位指代不明
“提供30多万种出版畅销图书”“合计两万小时、10万余集”“提供使用有声书籍与节目资源总量达到6000多本”。多种、余集、多本,本意表明资源丰富,却易引起疑问,“30万种”并不等同于“30多万种”。再如单位指代不明,“期刊6000种,2200万条以上”,电子期刊多以“种”“册”计,而“条”所指不明。
2.2 技术层面的困境
信息不对称充斥在公共图书馆采购、验收、日常维护数据库的各个流程,馆方一直处于被动地位。馆方没有技术路径核查数据库的资源上架、更新等情况,所有数据来源于数据库方,不仅基数大,真实性也难以自证。
2.2.1 数量验证难
馆方有权对合同中约定的资源量要求数据库方提供证明。其中资源清单是主要依据。在验收实践中,资源清单也出现各种问题。一方面,数据库资源量巨大,动辄百万千万,不能一一核实,只能人工手动进行样本查重、抽查,费时费力,准确性也有待提高。另一方面,部分数据库出于商业机密考量,并不能完全提供资源清单,资源总量验证难。
2.2.2 更新量验证难
资源量的表述必然涉及更新量。有诸多因素导致更新量无法在验收中落实。数据库一年一采,验收工作集中在付款前,需投入较长时间,很难作为日常工作进行,更遑论定期关注资源更新情况。若没有技术平台定期核查资源量与内容,合同中的更新量仅作为一项数据体现,却得不到验证。此外,合同中更新量表述不详尽也易导致理解歧义,产生不必要的纠纷。如“月度更新、年更新量不少于1000小时”“平台更新20%的资源”“图书每月更新100本以上”“更新数据150多万条”。提及更新量而不说明更新频率,未阐述“更新”概念(是指在原有资源量的基础上“增加”新资源,或替换过期下架的资源而实际总量保持不变)。
2.3 网络传播层面的困境——版权风险
近几年,图书馆数字资源侵权事件频发,作为采购方的图书馆并不能全身而退,甚至因提供展示平台被认定为共同侵权[7]。《信息网络传播权保护条例》虽然有规定,图书馆、档案馆等可以不经著作权人许可,通过信息网络向本馆馆舍内服务对象提供本馆收藏的合法出版的数字作品和依法为陈列或者保存版本的需要以数字化形式复制的作品,不向其支付报酬,但不得直接或者间接获得经济利益[8]。条例限定必须在馆舍内使用,但数字资源的访问不受时空的限制才能更便于读者使用,也是其区别于本地数字资源的特色之一,因此部分图书馆采用VPN等技术手段实现数据库的远程访问,这一点难以避免。
在合同中,数据库商声明其提供的资源都已取得完整版权,可随时抽查,并承诺处理、承担因版权问题引起的一切损失。一方面,数据库方从出版社、代理商处采购的资源大都以批为单位,核查每一种资源的授权需要经历馆方抽查、数据库方提出申请、验收人员核对的流程,必然耗费大量时间与人力,目前阶段不可行;另一方面,数据库与搭建的平台在更新上存在频率差,导致很多资源下架有延误、不及时,这为之后的侵权事件埋下隐患。数字资源侵权不仅会给公共图书馆带来钱财损失,名誉上还有负面影响。
3 公共图书馆商用数据库验收的优化策略
3.1 从标书、合同制订上规避歧义表述、版权风险
当前图书馆的数字资源一般以单一来源或公开招标形式进行采购,在前期标书或合同制订上明确验收标准,避免引起歧义的表述是优化验收工作、减少后期不必要沟通的重要环节,也能让验收工作有据可依。如上所述,草拟标书中的需求、合同资源数量时应注意精简行文。
3.1.1 资源量表达精确
数据库资源要数字准确,减少类似“10万余集”字样的表述,不同单位之间的包含必须表达清楚。如某听书类数据库所列资源量:“不少于1000本精品电子书,不少于30万集的专辑数量,共计20万小时”,电子书、集数、时间包含关系指代不明,应尽量避免。
3.1.2 更新量表述准确
前期与数据库商沟通后确定更新概念、更新频率,从而约定更新量核查时间。
3.1.3 明确不同端口资源量的分布
在列举资源数量时,明确微信公众号、小程序、电脑端等各端口可供读者使用的数量,以此作为验收的详细依据。有些资源只授权给数据库,不能放置在第三方平台。在标书或合同中有针对性地对各端口资源量做出规定,可以有效避免验收中的无效沟通,减轻验收人员工作量。
3.1.4 加强对数字资源商业资质的审查
在标书中强调数据库资源必须是正规出版物,版权完整。尽量选择规模较大、建设正规、行业口碑较好的数据库商作为合作对象,对国内几个大型正规出版社的授权书做数量上的硬性要求。在验收过程中除核查标书中规定的出版社版权之外,还可以抽查一小部分资源的版权协议是否从作者—出版社、代理公司—数据库形成完整清晰的版权协议链条,听书类资源还需要制作公司的授权。此外,在双方的权利和义务条款上,应当让数据库商做出承诺:必须合法解决版权,保证所供产品信息内容符合中华人民共和国相关法律,并保证所供信息不会引起知识产权纠纷等法律责任。因其提供的产品所产生的版权及相关知识产权而导致的纠纷和赔偿责任均由数据库商负责处理和承担。如若合约到期,数据库方应自觉下架资源,由此产生的纠纷和赔偿均由数据库商负责处理和承担。
3.2 以数据记录保障验收数量
基于研究者已经对统计计量、内容验收、更新频率验收、检索功能验收等方面做了相关论述,提出了比较详尽的验收流程[1-2],笔者将从公共图书馆商用数据库验收实践入手,针对数据库数量统计验收展开详细论述。
数字资源验收是一个长期过程,为条理清晰、梳理有序,应当有时间、验收情况的数据记录,也能让后续的验收人员有章可循。数据记录应当包括如下内容:(1)合同编号。(2)公司名称。(3)数据库名称。(4)使用终端:一般为馆方微信公众号、馆方微信小程序、PC端、App端或其他展示平台等。(5)合同约定的资源内容及总量:在数据库商关于数据的描述较多的情况下,甄选核心关键词,如“本听书库含儿童、人文、有声小说、财经、曲艺戏曲、文学、相声评书、外语、健康等类别,提供使用有声书籍与节目资源总量达到6000多本”可转化为“含听书资源6000本”;“本期刊库涵盖时事政治、财经、管理、时尚等1500多种主流畅销期刊,馆方可选取其中1200种自由使用”可记录为“1200种电子期刊”。(6)合同约定的更新量:该项应当指明更新频率与更新量。以上6项可与合同对应填写。(7)验收申请函中的资源内容及总量:在根据合同要求布置好资源后,数据库方会向馆方发送验收申请函。(8)第一次验收:数据库的日常挂靠、使用数据的收集、管理一般由技术部门、采访部门、使用部门等多方合作,可分作几项由以上部门分开填写。收到资源清单后,与合同约定量、申请验收量互相比对,如有整合的平台,还可加上平台导出量互相印证。(9)最终验收:在验收实践中,可从以下4个维度综合得出验收结论。一是合同验收率(申请验收量/合同约定量)。数据库商自查后发出验收申请,此项体现合同响应程度。两者一致,合同验收率100%是验收工作顺利开展的前提。二是资源平台接入率(后台导出资源详单量/合同约定量)。部分图书馆做出了平台整合资源的尝试,将各类数据库整合到一个平台上,实现便捷搜索后台统一管理,此项体现数据库提供的资源在平台供读者使用的情况。三是抽检缺失率(抽检缺失量/抽检总量)。就目前的技术手段而言,抽检是数字资源验收必不可少的一步。在核验数据库商提供的清单是否有效的同时,还能以读者的视角,在检索使用过程中留意该数据库首页设计是否科学、检索是否高效便捷、跳转切换是否流畅、阅读或听书界面是否功能齐全等。合同验收率和资源平台接入率达100%、抽检缺失率0%代表数据库商在合同中承诺的资源至少在数量上已达标。在此基础上,抽检中发现的问题也应当妥善处理,如此,方可得出合格的验收结论。建议在验收完成后形成验收报告,就验收过程中发现的各类问题或归纳分类或寻出原因或提出改进方向,以为后续的验收工作提供借鉴。
3.3 技术支持
数字资源种类繁多、体量庞大,现今还没有规范、成体系的验收标准,人工验收费时费力。业内近几年一直提出要加快技术研究步伐,减轻验收人员的负担,开发出能批量核查资源数量、更新量、版权的平台或系统。如今或可从以下两个方面为改进数字资源验收工作提供技术支持。
3.3.1 将数据库接入平台统一管理
部分图书馆将休闲娱乐类数据库资源接入了微信小程序。该平台方便读者检索,免去机械打开数据库的繁琐程序,也让读者针对同一种资源在同类型数据库中横向比较。且官方直接管理平台,能直观掌握各数据库浏览量等统计数据,保障数据真实性。对于读者和馆方都有极大的益处,但其中的隐患也不能忽视。一是多数图书馆技术部门不能独立完成平台的搭建与日常维护,平台与其他数据库的对接、更新、统计等都有赖于第三方公司的技术支持,削弱了馆方的主动性。二是一旦不再与第三方合作或合作形式变动,平台所有权的归属易引起纠纷。三是版权问题需要解决,一部分资源在签署版权协议时要求代理方不能放置在第三方平台。如不能完全接入平台,数量有损,验收不能通过;若针对这一部分资源再设置远程访问链接,则与平台设置的初衷背道而驰。
3.3.2 提供馆方查询管理的后台
资源浏览量、下载量等是评价一个数据库使用效果、性价比的重要指标,在同类型数据库的选择比较中更为突出。长期以来,馆方只能被动地接收数据库商发过来的使用数据,搭建统一平台能有效解决该问题,数据库方如能提供后台也能取得同样效果。有些后台甚至还能管理数据库资源,在提供查询以日、月、年为单位的使用数据的同时,还能明确统计出资源存储量、更新量等。
以上仅为技术展望,各数据库方的技术手段能不能够支持、愿不愿意开放后台,都需要双方协商与规划。
4 结语
数字资源验收正处于各项维度落实难、数据统计难、版权有风险的困境中。笔者基于此提出明确验收标准表述、细化统计计量指标、统一平台与后台的技术展望。商用数据库验收问题的解决有赖于馆方与数据库方的长期磋商、通力协作。除此之外,也应当吸收、听取读者对数字资源的评价反馈。来自读者的意见,更能体现公共图书馆采购商用数据库的初衷。