医学外文电子期刊数据库的综合评价与分析

2017-03-21

中华医学图书情报杂志 2017年4期

近年来，在各类型的高等院校中，数字文献资源的经费投入均有大幅度增加，甚至超过了纸质文献资源[1]。因此，有必要对图书馆购置的电子资源进行综合评估，并基于客观数据和事实，对各种电子资源质量的优劣进行横向比较，以判断它们在用户文献利用方面发挥的价值。综合评价结果，可为电子资源的新增、续订、停订等工作提供决策支持，使图书馆在经费有限的情况下，采购到更符合用户需求的高质量资源，提高文献资源建设经费的使用效益。

对于电子资源的综合评价，目前国内外均有较多研究，但这些研究更多是集中在理论研究层面，包括对评价方法的讨论、评价指标体系与评价模型的建立等[2-3]，实证分析和案例研究仅见少量报道[4-5]。首都医科大学图书馆(以下简称“我馆”)于2015年运用层次分析、德尔菲法等方法，结合医学院校的实际情况，建立了一套适用于医学院校图书馆的电子期刊评价指标体系[6]。

本文在前期工作的基础上，对4种医学外文电子期刊数据库进行了试评价，就医学电子资源的评价标准与评价方法与业内同行进行了探讨。

1 研究方法

1.1 评价对象的确立

选取4种医学外文全文电子期刊数据库作为研究样本。因为评价内容涉及价格等信息，为避免造成商业信息泄露，分别采用A、K、P、W数据库进行指代。

A数据库作为医学学协会出版物的代表；K数据库的内容来自一家专注于出版医学内容的中小型出版社；P数据库为集成型电子资源，收录内容来自多家出版社的医学类电子期刊；W数据库则为收录多学科学术期刊的商业数据库，本文仅对其医学及生命科学学科进行评价。4种数据库覆盖了当前电子期刊几种主要的出版与销售模式，具有良好的代表性。

1.2 评价指标类别及数据来源

本研究采用的评价指标体系由数字资源内容及数字资源使用情况、经济性、检索系统功能和相关服务等5个1级指标、11个2级指标和28个3级指标构成。根据各评价指标的性质，不同指标的数据来源及评分方式有所不同，将这些指标大致分为定量型和定性型两类。

定量型包括收录全文电子期刊的种数和数据库的登录次数与检索次数、价格等信息，数据主要来自DRAA(高校图书馆数字资源采购联盟)出具的数据库评估报告、数据库商提供的信息及我馆的实际使用数据等。

其中定性型变量又可分为以下两类。

第一类为定序型变量，即变量值具有等级或程度上的差别，但这种差别往往来自人的主观感知，难以用某种具体的尺度直接测量其数值的大小，如数据库检索系统功能的强弱，检索结果分析、处理能力的高低等。对于该类指标，选取5名具备丰富检索经验的图书馆员，根据实际工作中的体验进行打分获得。打分方式采用5级量表的形式，用1-5分分别代表非常不满意、比较不满意、一般、比较满意、非常满意，随后计算5份打分结果的均值。为了避免打分的盲目性、随意性，首先登录各待评价数据库网站，收集基本信息，并结合数据库商提供的基本介绍材料，对检索途径、检索技术、输出结果多样化以及检索结果分析等4项指标来进行客观事实的填写，以供打分人员参考，具体信息见表1。

表1 定序型指标基本信息

第二类定性型变量称为名义型变量，其特点是变量值只有若干有限取值。本文涉及的变量均有两个可能的取值，即有或无、是或否，如是否包括附属医院IP，是否支持漫游访问等信息。对于这种0-1型变量，则根据实际情况直接对其进行打分，分值分别为0分或1分。

全部28个评价指标的名称、分类及原始数值参见表2。

另外，按照各评价指标的经济性，又可将其划分为效益型指标(数值越大越好)和成本型指标(数值越小越好)。对于成本型指标，需要与效益型指标进行区别处理，反向赋值。

表2 4个数据库指标的名称、类别及原始数值

1.3 数据填写过程中应注意的问题

一是数据库收录内容。在统计收录期刊的种数时，应注意排除OA期刊；对于集成型资源，还应分析该库与其他数据库收录期刊的重复情况。

二是数据库价格。在计算数据库价格时，应将捆绑纸本刊的价格涵盖在内，一并计入成本。

三是用户帮助与培训指标。收集了2014-2016年首都医科大学图书馆举办的全部讲座与培训的信息。在4种数据库中，仅W数据库曾于2016年到馆进行1次培训。但在实际工作中，各数据库商对于用户培训的要求是积极配合，这对他们的产品也是一次很好的宣传机会。由于全文期刊型数据库总体上较简便易用，检索界面比较友好，无需每年安排培训。对此，打分的过程中应予以适当考虑。

1.4 评价指标样本数据的处理

1.4.1 空值的处理

在评价过程中有5个评价指标数值有缺失。造成空值的原因，一是指标对评价对象不适用，如C22(是否提供试用统计)项，适用于订购前对试用数据库的评价、比较，而本次测评的对象均为已订购数据库，因而不适用。二是数据无法获得，如C7、C8、C9、C13项，涉及数据库的用量统计。有些数据库商能够提供相对完备的统计数据，有些只提供全文下载量等基本信息。对于这些缺失值，在实际操作中作了删除处理。为了避免因删除指标导致的评价指标体系整体权重发生变化，采用的方式是参考一级指标及二级指标的权重，将同类目下的相应指标按比例放大。如C13(单次检索成本)项有缺失，则参考二级指标B7(数字资源使用成本)项，将该项的权重0.0751均赋予C14(全文利用成本)项。在删除5项有空值的指标后，再对剩余的23项指标进行进一步计算和处理。

1.4.2 电子期刊评价指标原始数据的无量纲化

我馆构建的评价指标体系在确定各项指标及权重后，采用百分制的方式，依据各指标的权重进行赋值。百分制赋值的优点在于简便、清晰，易于理解。但在实际操作的过程中，发现存在一些现实问题。首先是对各项指标权重的小数部分进行四舍五入，以得到整数。但当权重系数值较小时，小数部分的取舍会造成取值相对原始数值的较大比例的变化。另外一个重要的问题是在打分开始前，制定一个科学合理的打分标准是困难的，各数据库的评分结果将会随着打分标准的不同而发生变化；在打分的过程中，根据各项指标不同的原始数值赋予其不同的分值，操作起来也是模糊的，难以避免主观随意性。

本文采用数学转换的方式，对原始数据进行无量纲化处理。这是因为三级指标之间是不同质的，各个指标的内涵和量纲也不完全相同，不便将其数值直接进行加和、比较。因而，有必要进行标准的转换，去除原始数据的量纲，这是对多指标的复杂对象进行综合评价的一个必要的步骤和环节。结合课题的实际情况，采取“差极化”的方法，将上述定量型指标和定序型指标的客观数据xi转换为[0,1]范围内的数值yi。

对于效益型指标和成本型指标，二者的处理方式有所不同，见公式1和公式2。

最后，用ωi代表指标权重，运用公式3，计算出4个数据库的最终得分Z(见表3)。

表3 4种数据库的无量纲化值及综合得分

2 结果与分析

由计算结果可知，4种数据库的综合得分排名为W>A>K>P。其中W数据库得分最高，绩效最好；K数据库和P数据库得分接近，K数据库略高。通过对样本数据库各分项指标的加权得分进行横向比较，可以得知各个数据库在每项指标中的优势和不足之处。

2.1 W数据库

W数据库的综合绩效得分为0.8465分，排名第一。其优势在于收录期刊的整体学术水平较高，且数量较大。由C3(收录内容)及C4(SCI/EI比重)两项指标可知，该数据库收录的生物医学类期刊中有455种被SCI/EI收录，因而获得了最高的全文下载量。其2016年全年达到了9.75万篇，是下载量排名第二的K数据库的8.6倍。此外，W数据库还获得了最低的全文利用成本。由于C10(全文下载量)和C14(全文利用成本)的权重较高(0.3314)，使W数据库最终得分领先。W数据库突出的缺点在于其具有对检索结果进行分析的功能，缺乏基本的检索结果分面筛选功能，使用户在大量检索结果面前无法快速筛选自己想要的内容，造成极大的不便和困扰。

2.2 A数据库

A数据库的综合绩效得分为0.5395分，排名第二。虽然该库只收录了10种全文期刊，但每种期刊的学术质量均非常高，全部被SCI/EI所收录。A数据库的年度全文下载总量为10 993篇，与收录84份期刊的K数据库相近。根据全文下载量，可以计算出平均每份期刊的年下载量达到了1 099篇，是W数据库的5.6倍，说明A数据库也在一定程度上满足了用户需求。

2.3 K数据库

K数据库的绩效得分为0.3945分。原因是K数据库的检索界面不够友好，且检索功能整体较弱，在检索界面、检索途径、检索技术、检索结果输出多样化等方面，用户满意度均很低，从而拉低了分值。

2.4 P数据库

P数据库是集成型资源，在所评价的4个数据库中，收录的医学全文电子期刊的种数最高，为3 055种。其不足之处在于，很多期刊都存在时滞，且内容更新不够及时，无法提供最新的文献，对于时效性要求很高的医学文献而言，是一个较大的问题。该库全年总下载量最低，仅有2 400余篇，且单篇下载成本最高，使绩效得分最低，仅为0.3236分。

3 讨论

3.1 评价结果对资源建设工作的指导性作用

对电子资源进行系统性的综合评价，可以为图书馆数字文献资源建设提供数据支撑。从研究结果可知，W数据库整体表现较好，在采购方案没有大幅变动的情况下，可以维持续订；A数据库评分中等，可以密切关注；K数据库和P数据库绩效评分均较低，但对这两个数据库又需要区别对待。K数据库主要是在检索系统方面存在不足，需要反馈给数据库商，敦促其重视用户体验，积极升级检索功能；P数据库的主要问题是用量较低，使用成本较高。笔者查阅了DRAA集团的使用统计，发现在18家参团用户中，2015年的集团年平均全文下载量为1.6万篇，单篇下载成本平均为5.32元，说明P数据库整体而言对用户是有帮助的，不宜直接停订，还需加大宣传推广的力度，促进读者对该数据库的认识和使用，从而降低使用成本，提高使用效益。若经过一个合同期的宣传，该数据库的利用率仍然较低，则可以考虑不再续订。

3.2 评价指标体系的有效性

笔者采用DRAA集团组织的2016年度用户满意度调查结果作为参照，该调查共设置4项一级指标，包括数据库内容与质量、数据库商服务、购买价格及方式、检索系统平台，以及13项二级指标。汇总用户对于A、K、P、W这4个数据库的打分结果，发现在涉及的13项二级指标中，W数据库有11项指标获得了最高的满意度，2项得到了次高满意度的评价。这与本次测评的结果或可进行相互的验证，从一定程度上说明，评价指标体系的指标选取和权重设置是合理、可行的。

3.3 评价指标体系的可操作性

在28项三级指标中，有23项获得了完整的数据，说明选取的指标在数据的可获得性方面，整体表现较好。各项指标内涵清晰，并实现了尽可能的量化，使填写简便易行，便于数据库间的横向比较。

在存在空值的5个指标中，4个与数据库的用量有关，包括登录次数、检索次数、题录下载篇数、单次检索成本等。为此，笔者调查了22个生物医学及相关学科的外文全文数据库能够提供的用量统计情况，调查结果显示，在22个数据库中，只有全文下载量这一指标是每个数据库都能提供的，能够提供登录次数、检索次数、题录下载篇数的数据库分别为6个(27%)、15个(68%)和7个(32%)。为避免在今后的评测工作中出现大量的空值，可以保留检索次数和全文下载篇数两个指标，删除登录次数和题录下载篇数这2个指标。

4 结语

对订购的各类型数字资源进行系统性的服务绩效评估，是图书馆需要长期开展的一项常规工作。评估的结果是图书馆合理分配采购经费，对电子资源的新增、续订、停订进行科学决策的客观依据。作为评价工具的评价指标体系的科学性、合理性及可操作性，无疑会对评测结果起到至关重要的作用。一个理想的评价工具的建立不是一蹴而就的，必须经过实践的检验，并根据评价对象的变化而调整，使之不断完善，具有更好的实用性。