古籍数字资源服务效能评价指标体系*
2020-07-22赵洪雅
赵洪雅
0 引言
古籍数字资源是运用现代信息技术对古籍文献进行加工、整理后形成的各种信息资源的总和。古籍数字资源服务是我国公共文化服务体系建设的重要组成部分,是利用信息技术拓展古籍资源服务能力和传播范围的重要途径。所谓效能,则是指系统在规定条件下达到规定使用目标的能力[1]。服务效能一般包括能力、效率、质量及效益等因素。能力指服务提供方的能力范围,如信息资源的存储量;效率指在一定时间内的信息处理能力,如查询效率、咨询交互效率;质量指满足读者阅读需求的综合水平,如目标内容的丰富程度;效益则指在信息资源建设投入的前提下服务提供方所获得的成果,如用户满意度的增长。在这一研究范畴中,古籍数字资源服务效能即是指服务提供方集合文献资源、设备设施、专业人员、技术手段、资金投入等各种硬件和软件条件,通过提升服务能力、效率、质量和效益的各项相关因素,为用户提供服务的水平的程度[2]。古籍数字资源服务效能评价就是通过设定的指标体系对古籍数字资源服务的功能实现程度进行测量。目前,基于我国古籍数字资源的研究已呈多元发展态势,研究重点主要有基础理论研究、技术问题研究、实践应用研究、标准体系研究和专题古籍数字化研究[3]等。具体针对古籍数字资源服务的研究[4-5]则大多属于经验总结、理论探讨等定性思考,尚缺乏基于调研和实证的定量研究。相较于国内公共数字文化服务评价的丰硕成果[6-9]而言,古籍数字资源服务研究无论在评价主客体、评价方法与工具、评价指标体系、实证研究等方面都尚未开展,仍处于萌芽状态。本文以广义的古籍数字资源为研究对象,包括但不限于:各类型古籍数字资源库、线上古籍展览、与古籍相关的电子资源、视频讲座、科普知识、新闻报道、行业动态等。通过实际调查与数据分析,从用户感知的角度构建古籍数字资源服务效能评价模型。本文还将探索性地回答以下问题:哪些因素将影响用户对古籍数字资源服务质量的感知?这些因素具体是怎样构成的?以及服务提供方将如何应对当今数字化时代的新要求。
1 古籍数字资源服务效能评价框架
为使评价能够反映客观事实,本研究在获取各项评价指标之前,首先进行了问卷调查与专家咨询。问卷发放时间从2019年2月开始,历时一个月,主要发放对象为古籍工作相关从业者、高校师生、科研人员、古籍收藏者及普通社会公众,并对具有丰富经验的资深古籍工作从业者和专家进行了咨询与结构式访谈。经预调查,古籍数字资源服务效能评价框架由“内容价值”“功能价值”“平台性能”和“服务品质”4个一级指标组成。这4个一级指标基本涵盖当前古籍数字资源服务的各个维度,既包含古籍数字资源的客体属性标准,也包含用户的主观需求和实际心理体验,能够反映出用户的真实判断。
2 构建古籍数字资源服务效能评价模型
2.1 评价假设模型指标的选取、整合与修正
以古籍数字资源服务效能评价框架为基础,进行预测试。通过对开放性问题答案的收集与整理,删除三级指标中重复或同质的要素,并对二、三级指标进行分类调整,最终评价假设模型有一级指标4 个,二级指标7 个,三级指标30个,如表1所示。
2.2 评价假设模型的数据分析与检验
为判断上述评价假设模型是否科学合理、评价指标设计及各级指标划分是否符合用户的真实感受,对数据作进一步分析与检验。研究设计路线见图1。
将评价假设模型中的三级指标要素转换成调查问卷中的问题项,在更广泛的群体内进行第二轮数据采集,调查问卷由两部分构成:一是被访者个人信息;二是古籍数字资源服务效能评价模型的调研内容。问卷共有39个题项,全部为封闭性问题,其中指标要素测量采用李克特五分量表法,以5~1分表示评价指标要素的影响程度,5分表示评价指标要素在用户感知中影响很大,1分表示对评价没有影响。
表1 古籍数字资源服务效能评价假设模型
图1 古籍数字资源服务效能评价模型研究路线
2.2.1 数据采集与描述性统计分析
依据古籍数字资源服务对象的特点以及研究情况,通过“问卷星”在线问卷调查平台制作问卷,通过网站、微信、QQ、各省级古籍保护中心、图书馆古籍阅览室发放和回收调查问卷,共回收问卷326份,其中有效问卷318份,有效率为97.5%,符合预定样本规模。
(1)样本描述性统计分析。在有效样本中,被访者特征描述包括性别、年龄、学历、职业以及使用目的5个方面。详细统计数据见表2。
表2 调查样本基本情况描述性统计
由表2可见,男女比例为36.8%和63.2%,表明参与调查的古籍数字资源用户女多男少。在年龄分布上,50 岁以下的样本比例达到81.1%,表明用户以中青年为多。与中国互联网络信息中心(CNNIC)发布的第43次《中国互联网络发展状况统计报告》[10]中的网民年龄结构横向比较,30~39岁与40~49岁这两个年龄组的人数比例偏高,说明古籍数字资源用户与一般网民相比年龄结构偏大。样本的受教育程度主要集中于本科(含大学专科)、研究生及以上,比例高达96.8%,表明古籍数字资源用户普遍具有较好的教育背景和信息素养。从样本的职业来看,将近六成的受访者为古籍相关工作从业者,学生、教师及科研人员占17.6%,普通公众占21.7%。由此可见,古籍数字资源的服务对象较为集中[11],当然,这也与本次调查问卷的发放范围主要聚焦于古籍界业内、高等院校及图书馆古籍阅览室不无关联。鉴于古籍相关工作从业者与教学科研人员自身专业程度较高,更能根据实际使用经验和感受作出评价,从而也在一定程度上确保了此次调查的真实性。从使用目的来看,“学习或研究古籍内容”“学习或研究古籍版本”“了解古籍保护相关知识”是被选频率最高的3个选项,说明用户使用古籍数字资源的主要目的仍是学习研究。据此可见,此次调查的样本具有女多男少、年龄结构偏大、受教育程度较高的特点,使用目的主要为学习或研究,符合以往对古籍读者特征的基本预判。
(2)观测变量描述性统计分析。利用IBM SPSS20.0软件对古籍数字资源服务效能评价假设模型中三级指标变量进行描述性统计,得到各指标变量的平均值和标准差,由此可以看出被访者对假设模型中各评价指标的整体感观,见表3。从表3可见,30项被调查指标中,平均值大于3的指标共有28项,其中“内容知识性”“内容特色化”“内容优质性”平均值位列前3,表明用户对目前古籍数字资源内容的质量、品类和知识性有较高的评价观感。各评价指标的标准差统计显示,有9项标准差大于1,主要集中于“功能价值”与“服务品质”两个一级指标中,表明用户对各平台的功能和服务质量的评价存在较大差异。究其原因,一是用户对服务和功能的体验具有较强的主观性,评价差异较大;二是各平台在服务品质和功能设计上确实水平不一,良莠不齐,导致用户主观评价差异较大。
表3 三级指标统计量
2.2.2 模型检验与分析
运用探索性因子分析法,对提出的假设模型进行检验与分析,从而构建古籍数字资源服务效能评价模型。
(1)信度分析。信度分析的目的在于研究样本数据是否真实可靠,即研究受访者是否真实地回答了各个题项。本研究使用Crobach α系数(即内容一致性系数)检验问卷的可靠性与有效性。Crobach α系数表示量表的信度质量,即测量样本真实回答的程度,通常α系数大于0.7即表示信度良好。CITC代表题项之间的相关情况,通常此值大于0.4即可。项已删除的α系数代表当某题项被删除时其对应变量的α系数。经检验,在30项指标中,只有“内容时效性”的CITC值低于0.4,但“一般价值”的整体α系数为0.745,信度良好,删除“内容时效性”后的α 系数为0.747,对“一般价值”的整体α系数仅提升了0.002,影响微乎其微,故保留“内容时效性”不予删除。由表4可见,所有7个二级指标的整体α系数均高于0.7,其中5个高于0.8,表明问卷可信度非常高,可以对假设模型作进一步分析。
(2)效度分析。在内容效度方面,本研究问卷中所有测量题目均依据相关领域的实证研究与前期预调研结果,并根据预调研数据进行修正后得到,可以保证问卷基本科学有效。且经过以上的信度分析,仍显示各变量具有可靠性,因此可以判断本研究题项设计合理,内容效度较高。在结构效度方面,采用探索性因子进行验证。首先进行因子分析适用性检验。采用取样足够的KMO(Kaiser-Meyer-Olkin)度量数和巴特利球形检验(Barlett Test of Sphericity)验证样本数据是否适合进行因子分析。检验结果如表5所示,取样足够的KMO值为0.916,大于0.7,表明30个指标间的共同因子足够多,适合进行因子分析。一般来说,Barlett 球形检验显著水平值越小(<0.05),表明原始变量之间越可能存在有意义的关系。本研究样本Barlett球形检验的近似卡方值为6705.518(自由度为435),显著性水平为0.000<0.01,表明母群体相关矩阵间有共同因素存在,再次证明适合进行因子分析。
表4 信度分析汇总表
表5 KMO和Bartlett的检验
(3)因子分析。在探索性因子分析中,公共因子提取利用主成分分析法(Principle Component Analysis,PCA),以特征值大于1为标准提取因子,使提取出的公共因子可以至少解释一个变量,并采用最大方差法正交旋转,根据旋转后的载荷因子矩阵归并与整合指标变量来确定公共因子。
经检验,共得到5个因子,与古籍数字资源服务效能评价假设模型构想的7个因子之间的对应关系有较大出入。其中“内容时效性”被单独划分为一个因子;“检索功能”的各项指标被打散;“通用功能”与“服务品质”被归并为一个因子。
2.2.3 模型修正与正式评价模型的建立
根据验证结果,对假设模型进行修正。据上文分析,“内容时效性”与其他指标之间共同联系太小,应予以剔除。修正过程中,“检索功能易用性”混入了“内容价值”指标聚集的公因子中,也予以剔除,最终得到变量共同度(公因子方差),见表6。共同度值通常以大于0.4 作为标准,如小于0.4则说明因子不能很好地表达题项信息。根据Kaiser准则,各项的平均共同性最好在0.7以上,如果样本数大于250,平均共同度在0.6以上亦符合要求。如表6显示,样本的共同度值(即“提取”列数据)均高于0.4,平均共同度为0.656,符合要求,说明所提取的公共因子对指标变量的描述程度较好,各个指标变量的信息丢失在可接受范围内。
以特征值大于1为标准提取因子,共提取出5个公共因子,其KMO值为0.916,累计方差解释率为65.603%,旋转后的方差解释率均大于10%。与调试前相比,5个因子对整个模型有了更好的解释力,基本可以代表原始指标变量的信息。采用最大方差正交旋转,所有三级指标的最高因子载荷系数均高于0.4,说明效度较好。最终检验结果如表7、表8、表9所示。
表6 公因子方差(修正后)
载荷因子1 共计7 个变量。与假设模型相比,包含了“通用功能”中的全部指标,“检索功能”中的“检索途径多样性”,以及“服务品质”中的“服务多样化”“服务个性化”“咨询有效性”3 个指标。这些指标侧重于用户对功能与服务的需求,如文本挖掘、地理信息系统、人物关系可视化、多途径检索、及时有效的参考咨询以及个性化的信息推送、界面定制等,体现了用户对智能化功能和个性化服务的极大需求。因此,将载荷因子1 重新定义为“服务品质”一级指标。这些指标聚集于第一个载荷因子中,也反映了在用户认知中,这些指标的满足程度对评价古籍数字资源服务效能有很大影响。
表7 KMO和Bartlett的检验(修正后)
表8 解释的总方差(修正后)
表9 旋转成分矩阵(修正后)*
载荷因子2 共计5 个指标。与假设模型相比,包含了“界面设计”的全部指标,以及“系统性能”中的“端口多样性”和“服务品质”中的“帮助易用性”指标。这些指标侧重于界面设计因素,如功能布局、色彩搭配等。“帮助易用性”指标强调“古籍数字资源平台上的各类帮助功能和工具设置明显突出、易于使用”,在此次调试中被归入“界面设计”因子,具有很大的合理性。据此,可以将载荷因子2重新定义为“界面设计”一级指标。这一因子在用户评价中的重要程度仅次于“服务品质”。
载荷因子3 共计7 个指标。与假设模型相比,包含“内容价值”的全部指标,不再细分为“一般价值”与“扩展价值”两部分。故将载荷因子3命名为“内容建设”指标。可以看出,作为古籍阅览基础的“内容价值”的重要性开始弱化,但这并不意味着内容不重要,而是在数字化、智能化、个性化浪潮下,用户评价更侧重于强大的使用功能和友好的用户体验。
载荷因子4 共计4 个指标。与假设模型相比,包括“系统性能”的大部分指标和“服务品质”中的“交流互动性”指标。这些指标侧重于古籍数字资源平台的系统特性,故仍将载荷因子4定义为“系统性能”指标。此次调试中“交流互动性”指标被归入“系统性能”,则更多强调的是平台系统需具备交互属性,能够在功能上支持用户与平台、用户与用户间的互动。
载荷因子5 共计5 个指标。与假设模型相比,包括“检索功能”的大部分和“系统性能”中的“平台可用性”和“系统兼容性”。这些指标侧重于数字资源平台的检索能力,故仍将载荷因子5定义为“检索功能”指标。“平台可用性”指标侧重于“古籍数字资源切实可用,链接有效”,被归入“检索功能”具有一定的合理性,侧重于检索结果切实可用。“系统兼容性”则更侧重于检索结果的资源格式等兼容性高,适用于各种浏览器或操作系统。
2.2.4 古籍数字资源服务效能评价模型指标释义
与假设模型相比,修正后的评价模型由三级简化为二级,包括一级指标5 个,二级指标28个,层次更加清晰,指标间内在关系更强,逻辑更为合理,较全面地反映了古籍数字资源服务效能的各个方面。根据修正后的评价模型中指标所属级别及其内在联系,对各评价指标进行重新解释与描述,如表10所示。
2.2.5 成分得分与指标权重
采用回归法(Regression)计算因子得分系数,根据因子得分系数矩阵各因子得分(Factor Score)写出因子得分函数:
对数据汇总后,得到权重最终结果如表11所示。从指标权重可以看出,服务品质一级指标权重占总权重的三分之一。“功能智能化”“功能自动化”“功能完备性”“服务多样化”“界面简洁性”“内容知识性”6项指标的权重超过0.05。说明用户对古籍数字资源的使用需求上升到一定层次,就会从之前只关注内容本身转而向服务智能化、定制化等方向发展。
表11 古籍数字资源服务效能评价模型权重得分表
3 结论与启示
本研究构建的古籍数字资源服务效能评价模型,从用户视角综合衡量了古籍数字资源服务的效果和用户满意度。该评价模型由二级指标体系构成,简洁明了,易于衡量。通过探索性因子载荷,该模型还给予当代数字环境下用户需求变化的一些启示。
(1)服务品质是以用户感知与期望值比较为基础的整体性认知评价[11],该指标是用户在使用古籍数字资源时最重要的影响因素,也是影响用户评价古籍数字资源服务效能最重要的指标。不同于传统纸质资源,用户更看重古籍数字资源智能化、自动化、个性化的功能以及服务的多元、质量与效率。早在2002 年,李国新教授就指出,古籍数字化应具备四大特征:一是文本字符的数字化,二是基于超链接的浏览阅读环境,三是具有强大的检索功能,四是具备研究支持功能[12]。这实际上已经指明了古籍数字资源的发展方向:除了转移媒介以外,后3个特征越来越成为亟待深耕的领域。而所谓“研究支持功能”,恰恰也与近年来方兴未艾的数字人文理念相吻合。数字人文的理论逻辑与技术体系,能够为古籍文献的组织、标引、检索与利用提供新的方法与模式,使古籍数字资源平台集资料查询、计量分析、知识发现等功能为一体[13]。如张旭等将《植物名实图考》进行知识点切割和文字识别,经过编号、命名、标引,形成专题性知识服务系统[14]。朱锁玲、王明峰以《方志物产》为数据源,用GIS技术把物产分布、物产传播等相关分析结果以地图形式展示[15]。此外,为构建以用户为中心的服务体系,个性化定制平台也已不可或缺,如现已开发的My Library 以及清华同方开发的PIS(Personalized Information System)等[16]。人们已逐渐意识到,未来的古籍数字资源只有同时符合这四大特征,才能称为真正的古籍数字化产品,才能满足用户越来越多样化的服务需求。
(2)界面设计是用户评价过程中另一重要指标。界面设计必须考虑古籍文献阅览和使用的特点。对图文型古籍数据库而言,一个好的浏览页面应该可以在全文阅读、原文图像、检索结果及相关知识支持系统之间自由切换;同时,目录、正文和注释应分级显示,使用户通过目录树就可以直接跳跃到需要阅读的正文部分[17]。对图像型古籍数据库而言,大多数都可以对图像进行缩放、上下翻页、目录设置、古籍册次选择及当前页显示;部分还可以进行页面跳转、附件查找、添加随笔、全屏阅读、缩略图、首末页跳转等[18]。此外,古籍数字资源用户普遍带有较明确的访问目的,界面设计应遵循简单易懂和一致性等原则,使用户能够通过页面的布局或语义预知下一步操作,在最短时间内、通过最简单的步骤、经过最少的页面达到自己想要实现的目的[19]。
(3)“内容建设”指标不再是首要评价因素,但用户对古籍最普遍、最首要的需求仍来自于古籍内容。因此,在建设古籍数字资源时,首先需要规范古籍数字化作业中的工序和标准,对古籍源头版本进行选择,提供有内容保障的原始信息[20]。2012年,国家古籍保护中心编制了《古籍数字化工作手册》(试用本),规定了珍贵古籍数字化的一系列指导原则和七大实施步骤,在一定程度上确保了内容建设的基础质量。更值得注意的是,用户本身也是内容的积极创造者。例如,当用户对文献中的某个词或句子感兴趣时,便可通过涂抹、批注和转发留下标记,作为深度交互数据进行保存利用[21]。例如,上海图书馆开发的众包管理及服务平台(CDS)曾邀请读者对相关历史文献进行人工识读,调动社会大众积极参与古籍数字化建设[22]。这种对内容资源深度开发的做法,可以汇聚和利用读者的认知盈余,将读者从被动的信息接收者转变为主动的信息提供者和建设者。
(4)系统是否能够运行稳定、响应迅捷、方便使用,是用户使用数字资源的基础保障。当前,古籍数字资源呈现出数据量大、数据类型复杂、服务器平台种类多、读者需求复杂等新特点。采用传统的存储模式永远无法满足存储容量不断增长的需要[16]。余玲等提出采用存储区域网格战略建立古籍数字化模型,全面解决海量、异构和动态存储问题[23]。此外,由于网络的即时性特点,交互的频度越高,服务的智慧程度也越高;交互过程中对请求方响应越快,即响应时间越短,服务满意度就越好[21],缺乏交互性的数据不足以形成用户满意的服务体系。因子分析结果也显示,“交流互动性”已成为用户对“系统性能”的一项较明确的要求,说明古籍数字资源平台需要更多地融入社交属性,改善交互环境质量,加快交互响应过程,增强响应处理能力。
(5)检索功能是帮助用户获取目标信息的手段与途径,但检索功能在指标排序上却相对靠后,这主要是因为目前古籍数字资源平台一般只支持字段检索等简单的检索方式,深度只停留在文献层面,而没有对文献中的具体信息进行有效地组织、分类和整合,更没有深入的挖掘与揭示[5],无法满足用户较深层次的检索需求。数字人文的关联数据技术与GIS技术能够对古籍文献进行知识层面的组织管理,并在此基础上实现语义检索。如上海图书馆利用关联数据技术建立并发布家谱数据,极大地拓展了家谱类古籍的检索深度[24]。北京大学图书馆建设的“秘籍琳琅——北京大学数字图书馆古文献资源库”引入GIS检索技术,为读者提供时空检索,结果可以通过地图直观显示。随着用户对检索能力越来越高的需求,平台应把不同时间、用不同技术开发的、具有不同内容和形式的数字资源系统整合起来[25],强化检索技术和内容的开发深度,为用户实现数据化增值[3]。
服务具有无形性、异质性、不可分割性和易逝性的特征,且现有的古籍数字资源平台类型各异,用途不一,因此,对古籍数字资源服务效能的评价也是一项复杂的工程。本研究仅通过测量指标变量,对用户感知古籍数字资源服务这一整体概念进行探索,以期为当前移动、智能环境下的古籍数字资源服务方式的改进提供借鉴。