APP下载

高校科研数据机构库联盟运行风险调查分析*

2019-03-27

图书馆 2019年3期
关键词:数据服务问卷机构

封 洁 司 莉

(1. 中南财经政法大学图书馆 武汉 430073;2. 武汉大学信息资源研究中心 武汉 430072)

大数据时代,科学研究向数据密集型范式发展。高校中的科研活动通常由个体科学家发起,产生的科研数据具有分布分散、类型复杂、格式多样等特点,缺乏统一的标准与共享机制。这些小型科学研究需建立完善的数据保存、管理、维护和共享机制,构建科研数据机构库。高校之间应建立合作,整合集成科研数据,提供统一的数字化服务,建立科研数据机构库联盟,支持科研数据交换与共享,从而使其在更大范围内为研究者提供访问和利用服务。

高校科研数据机构库联盟的构建和运行是一项复杂的系统工程,存在诸多不确定因素。联盟形式可以使成员之间实现优势互补、资源利益共享、风险费用共担,但同时也使成员面临着个体组织风险之外的联盟风险问题。联盟在拥有众多优势的同时,也存在着很高的失败率。因此在高校科研数据机构库联盟尚未建立之前,预先对其组建和运行的各个流程进行分析,探究其可能面临的风险,并进行有针对性的防范和预防,尽量将不确定性因素降至最低,将有利于高校科研数据机构库联盟的健康有序发展,也是联盟构建和运行的坚实基础。

1 高校科研数据机构库联盟的风险识别

高校科研数据机构库联盟面临的潜在风险源于多方面,在其产生阶段、作用阶段和影响过程上均存在差异,因而可从不同角度对联盟所面临的风险进行划分。从风险产生的层次来看,高校科研数据机构库联盟风险可分为外部风险和内部风险;从风险产生和作用的阶段来看,高校科研数据机构库联盟风险可划分为组建阶段风险、运行阶段风险以及解体阶段风险[1]。本文仅着重讨论高校科研数据机构库运行阶段的内部风险,暂不考虑外部环境因素以及组建和解体阶段的风险因素。

图1 高校科研数据机构库联盟运行风险大类

高校科研数据机构库联盟还未正式建成,本文主要采用流程图法和专家调查法对风险进行识别。根据联盟风险性质,首先将风险划分为关系风险和绩效风险[2]。关系风险可以进一步划分为管理协调风险与成员合作风险,统称为管理合作风险。绩效风险主要指高校科研数据机构库联盟在实际工作流程中可能会出现的、影响联盟目标实现的不确定因素。本文利用流程图法,从高校科研数据机构库联盟的实际运行环节出发,将联盟运行环节分为四个阶段,即数据采集阶段、数据组织阶段、数据存储阶段以及数据服务阶段。再将每个环节的具体流程逐一分解、细化,探究每个流程可能发生的风险,将绩效风险划分为数据采集风险、数据组织风险、数据存储风险及数据服务风险四大类,再加上关系风险对应的管理合作风险,共计五个风险大类,如图1所示。

2 高校科研数据机构库联盟运行风险分析

本文采用专家调查法,邀请相关领域的专家对高校科研数据机构库联盟在运行中可能存在的风险进行分析和预判。

2.1 调查问卷设计

问卷题目依据上文对风险大类的识别和划分设计,同时参考风险管理理论中的风险判定方法,对风险的可能性和风险导致的后果严重程度进行1—5级的划分,以可能性描述准则和后果描述准则为依据,编制量表。

问卷共分为三个部分,第一部分为基本信息,主要用于了解调查对象的单位、学历和职称。第二部分是对高校科研数据机构库联盟在运行中可能发生的具体风险进行调查,请专家学者对风险的详细类目进行可能性评估。第三部分是对风险大类进行整体评估,包括每类风险导致的后果严重程度及风险发生概率,用以构建高校科研数据机构库联盟的风险矩阵。

2.2 调查对象的选择与数据收集

本文选取的调查对象主要有两类:①相关领域的专家学者,包括高校图书馆学领域的教师和博士生,以及在核心期刊上发表过机构库、科学数据等相关文章的学者。②图书馆的领导和馆员,重点选取建有科学数据共享平台或机构库的图书馆领导和馆员为调查对象,如复旦大学、北京大学、武汉大学等高校的图书馆领导和馆员。

问卷的发放采用纸质问卷调查和网络问卷调查相结合的方式,问卷统计时间为2017年2月28日—2017年3月30日,共发放问卷185份,回收问卷112份,其中2份为无效问卷,有效问卷110份。

2.3 信度与效度分析

本文采用Cronbach Alpha系数、KMO指数与Barlett球形检验指标对问卷的信度和效度进行检验。问卷整体量表的Cronbach Alpha系数为0.946,问卷各部分量表的Cronbach Alpha系数均在0.7以上,说明问卷的信度较高。同时,问卷各量表的KMO值均在0.7以上,且Bartlett的球形度检验Sig.值为0.000,小于0.05,说明问卷的效度较好。

2.4 调查结果分析

2.4.1 调查样本分析

110位调查对象中,32位来自高校,以武汉大学、中山大学、南京大学等高校信息管理系的教师和博士生为主;78位来自各类型图书馆,其中47位来自高校图书馆,包括武汉大学、北京大学、复旦大学、上海交大等高校的图书馆领导和馆员,22位来自公共图书馆,主要为国家图书馆、上海图书馆等馆的领导和馆员,9位来自科学图书馆、专业图书馆和信息中心,主要为中科院系统的馆员和研究者以及CALIS管理中心的专家,详见图2。

图2 调查对象所在机构类型

110名调查对象的学历及职称分布如图3—4所示,绝大多数调查对象的学历为硕士、博士及以上,占比96.87%,副教授及副研究馆员以上职称的调查对象为37人,占比34%。

图3 调查对象学位分布图

2.4.2 数据采集风险分析

专家学者对数据采集阶段具体风险项的评分如表1所示,按可能性得分由高至低排列,排在第一位的风险项为“科研人员不愿共享科研数据,或愿意共享的数据有限”,平均得分为4.30。在访谈中,多位专家也表示,科研人员是否愿意将自己的科研数据进行共享是高校科研数据机构库联盟必然会遇到的问题。这说明专家学者普遍认为科研人员共享意愿问题是联盟在数据采集阶段面临的最大难题,也是最有可能发生风险的环节。“采集的数据质量参差不齐”和“与科研团队沟通中断,无法获取后续研究阶段的科研数据”两项风险的评分分别为4.17和4.08,风险发生的可能性等级较高,这表明科研数据的质量和完整性是专家学者关注的重点。高校科研数据机构库联盟需要两所或多所高校之间共同合作,若在数据采集之前未制定统一而完善的采集标准和质量控制体系,则很有可能出现各高校提交的科研数据质量参差不齐的情况。“数据采集效率低,影响数据的时效性”和“数据提交流程复杂,系统易用性低”排在最后两位,但风险可能性评分分别为3.93和3.83,接近高风险等级,也应引起数据采集人员的关注。

图4 调查对象职称分布图

表1 数据采集风险可能性评分

2.4.3 数据组织风险分析

数据组织方面的具体风险项按专家评分高低排列,如表2所示,“元数据方案无法保证不同学科、不同用户的元数据需求”这项风险的专家评分最高。高校科研数据机构库联盟在运行中必然会涉及不同学科的科研数据组织问题,由于各学科科研数据的特殊性,不同学科的科研数据元数据标准必然不同[3]。联盟的特性要求元数据方案能够有效支撑统一的数据检索与服务,但科研数据具有一定的动态性,在整个科研生命周期中会经历很多阶段,各阶段的科研数据特征也有可能存在差异,因而联盟的元数据方案设计存在一定难度,需要引起联盟工作者的高度重视。目前我国还没有形成可以直接为联盟所用的元数据方案,联盟元数据方案的设计还需要领域内专家结合联盟成员所覆盖学科的特点和用户需求来具体构建,这也是高校科研数据机构库需要攻克的难点之一。

表2 数据组织风险可能性评分

“缺乏具有持续性和可扩展性的数据结构”是数据组织方面排名第二的风险项,风险发生的可能性较高。高校科研数据机构库联盟的数据结构会影响数据存储及检索效率,若不具有较好的可扩展性,会导致联盟内科研数据难以长期组织和存储,甚至造成数据流中断。“数据标引不准确”风险项的评分为3.71,原因可能是元数据方案不准确,或工作人员专业知识不完备或工作疏忽。“对科研数据资源的保存年限和开放权限区分不明确”一项为3.65分,原因在于高校科研数据机构库联盟在实际运行过程中可能会忽视资源保存年限的区分问题,力求将所有科研数据进行长期保存。这种做法会使联盟的工作量大幅增加,并导致存储空间不足,统一将所有资源进行开放共享则会使研究者产生抵触心理,不利于提高学者的共享意愿。莫纳什大学科研数据仓储允许研究者自行决定数据的开放程度和开放范围,能够满足不同研究者的需求,值得我国的高校科研数据机构库联盟借鉴[4]。此外,“数据格式转换复杂,数据兼容性低”也可能会影响研究者的共享意愿和利用积极性,高校科研数据机构库联盟在进行数据组织时,应注意不同高校科研数据之间的兼容性问题。“缺乏语义分析、挖掘技术和工具(如关联数据)的应用”这一风险项的评分为3.59,访谈中有专家学者表示,科研数据如何与其他文献实现关联是联盟工作者需要考虑的问题。

2.4.4 数据存储风险分析

数据存储风险项按评分高低排序,如表3所示,评分最高的风险项为“部分数据可能遭到破坏、更改、泄露或丢失”,风险可能性评分为3.85,说明专家学者普遍最关注联盟内科研数据的安全问题。影响联盟科研数据资源安全的因素既有自然灾害、硬件设备等因素,也有计算机系统、管理维护等技术和人为因素。联盟运行应确保科研数据的完整、保密和可用,注意在云存储及数据迁移过程中可能造成的数据丢失和破坏,强化机构库系统的安全保护功能,建立安全防护机制,防止遭到网络黑客或恶意用户的威胁。

机构库在长期发展中可能会出现科研数据量增长迅猛与存储空间有限的矛盾,专家学者认为存储空间风险较高,发生的可能性为3.57。高校科研数据机构库联盟工作人员需要与科研人员进行沟通,控制所上传科研数据的大小和数量。若科研数据量超过联盟存储限制,相关工作人员可对数据保存价值进行核实和筛选,将相对不太重要的科研数据暂时保存到临时空间[5]。访谈中也有学者表示,高校科研数据机构库联盟应根据科研数据的价值灵活确定数据的保存期限、载体和场所,实施分级存储措施,否则很有可能面临存储空间不足的风险。系统软硬件设备、技术水平及后期维护问题也是高校科研数据机构库联盟在数据存储阶段可能面临的风险,专家学者对这三项的评分分别为3.51、3.28和3.48,风险发生的可能性中等偏上。高校科研数据机构库联盟在选择系统和软件时,不仅要考虑其构建和维护成本,还需考虑系统功能和服务特性。建设高校科研数据机构库联盟可以使用一些开源软件,但在使用过程中,应根据联盟功能和目标对其进行修改和汉化,这一过程需要专业技术人员的参与。

表3 数据存储风险可能性评分

2.4.5 数据服务风险分析

数据服务风险项按可能性评分高低排列,如表4所示。“缺乏有效的知识产权解决方案”和“存在隐私泄露风险”两项得分最高,分别为3.96和3.95,说明专家学者认为知识产权风险和隐私泄露风险在联盟的运行过程中很可能发生。科研数据资源的知识产权归属是高校科研数据机构库联盟在建设和运行阶段不可回避的问题,也是制约其发展的瓶颈之一。此外,科研数据在存取和利用过程中,可能存在隐私泄露风险。一条数据在单维度情况下无法得到结论或者线索,但当多条数据资源聚集后,形成多维度的信息源,则很有可能会泄露研究者或客户的隐私信息,这也是学者在共享数据时产生顾虑的缘由之一。

“成员间资源和服务共享性不足”风险评分为3.91,资源和服务共享是高校科研数据机构库联盟构建和运行的基础,各成员高校由于学科分布、规模实力不同,拥有的科研数据资源和服务必然会存在差异。成员高校间的资源服务共享不仅需要统一的协调管理,还需要系统和技术的支撑,建立统一的共享平台。“数据服务无法有效嵌入科研,数据监护服务不到位”风险可能性评分为3.85。在实际工作中,由于缺少完善的数据监护政策、细粒度的语义化描述不到位、缺乏专业的数据服务馆员等原因,很容易出现数据服务不能有效嵌入科研,无法真正开展数据监护服务的现象。“数据资源的可获得性欠佳”风险评分为3.83,科研数据资源的可获得性与科研数据资源的安全问题、长期保存问题及资源共享问题等因素息息相关。“成员间系统或数据服务平台兼容性差”(3.79)、“数据服务平台检索效果差、响应时间长”(3.55)、“专业的科研数据管理人员数量不足”(3.76)这三个风险项也是数据资源可获得性风险产生的诱因。

表4 数据服务风险可能性评分

2.4.6 管理合作风险分析

高校科研数据机构库联盟在管理合作方面可能发生的风险评分排序,如表5所示。“联盟经费缺乏有效保障,经费不充足”风险评分最高,为3.92,说明经费问题是专家学者普遍关注的问题。资金保障是高校科研数据机构库联盟建设和运行的重要前提,联盟的建设规划、软硬件配置、系统管理维护、数据服务提供等均需资金投入。高校科研数据机构库联盟需要明确的资金支持计划来保证其建设和顺利运行。

“联盟成员间合作松散,合作动力不足”风险评分为3.90,发生的可能性较高,风险诱因可能是联盟内缺乏有效的激励和约束机制、成员收益和支出不对等、成员间信息沟通不畅、成员存在道德风险等,这些风险诱因也是风险的表现形式。“联盟成员在联盟信息共享中成本和收益不对等”(3.89)和 “联盟成员间信息共享和沟通不顺畅、效率低”(3.85)是导致联盟合作风险的诱因,而“联盟成员为了自身利益不按联盟协议行事”(3.80)和“联盟成员合作态度不积极”(3.78)则是联盟成员存在道德风险的具体表现。高校科研数据机构库联盟是成员高校间自发形成的组织,各成员高校都是彼此独立的机构,不存在行政隶属关系,只能依靠契约合同来约束合作关系,对联盟成员的道德要求较高。此外,“联盟缺乏有效的管理机制,无法有效监管成员工作”(3.78)、“联盟协调管理复杂,运行成本不断上升”(3.76)、“联盟成员由于能力有限无法履行联盟协议”(3.71)也是导致合作不佳的重要原因。同时,高校科研数据机构库联盟在运行中还有可能出现成员中途退出的风险,可能性评分为3.61。

表5 管理合作风险可能性评分

3 高校科研数据机构库联盟运行风险评估

联盟的风险评估可采用风险矩阵法、层次分析法、模糊理论等方法,本文选取风险矩阵法对高校科研数据机构库联盟的运行风险进行整体评估。风险矩阵(Risk Matrix)是一种常用的风险评估方法,通过风险后果和风险发生的可能性两个维度来评估风险等级,揭示风险的重要程度。目前,最为常用的风险等级描述方法为用“乘”来表示后果和可能性的结合,表示某一风险或组合风险的大小或等级[6]。

表6 联盟风险可能性描述准则

表7 联盟风险后果描述准则

在使用风险矩阵前,需要对风险后果和可能性范围进行定义,即制定后果和可能性的描述准则。本文参照常见的风险描述准则,制定高校科研数据机构库联盟的半定量风险描述准则,将风险可能性和后果划分为五级,各等级对应的描述和内涵如表6、表7所示,风险等级描述如表8所示。

表8 联盟风险等级重要性描述

通过专家调查问卷邀请110名专家学者对高校科研数据机构库联盟运行风险的可能性和后果进行整体判定,请专家根据自己的理论知识和实践经验,从联盟运行风险的评估指标体系出发,对联盟的一级风险指标进行整体评判,统计结果的综合平均得分,如表9所示。以风险可能性为横坐标,风险的影响后果为纵坐标,依据表9的数据我们可以得到如图5的风险矩阵,直观看到高校科研数据机构库联盟的运行风险评估情况。

表9 风险评估结果

图5 高校科研数据机构库联盟运行风险矩阵

评估结果显示,五大类风险按发生可能性从高到低排序依次为:数据采集风险、管理合作风险、数据存储风险、数据组织风险、数据服务风险;按风险发生后果的严重程度从高到低排序依次为:数据采集风险、数据存储风险、管理合作风险、数据组织风险、数据服务风险,其中数据组织风险与数据服务风险评分均为3.65。专家学者认为数据采集风险为高校科研数据机构库联盟最值得关注的风险大类,其发生的可能性大小和严重程度高低,很大程度上取决于研究者的共享意愿。按可能性和后果的乘积进行评判,并参考风险重要性描述准则进行评估,五大类风险均属于Ⅲ级重要风险,其中数据采集风险、管理合作风险、数据存储风险的风险值取整均达到14.00,处于重要风险和灾难性风险的临界点,需要高校科研数据机构库联盟的管理者对其进行重点关注和防范。

(来稿时间:2018年4月)

猜你喜欢

数据服务问卷机构
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
基于数据中台的数据服务建设规范研究
数据服务依赖图模型及自动组合方法研究
问卷网
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
一周机构净减仓股前20名
问卷大调查