图书馆智慧知识服务数据治理模式研究
2022-11-17高大勇
钟 戈 高大勇
(1.辽宁科技大学图书馆;2.鞍山市图书馆,辽宁 鞍山 114051)
当前,数字经济正在引领新经济发展,其覆盖面广且渗透力强,通常与大数据、云计算、互联网、人工智能等各行业融合,随着数字经济的发展,数据正成为全球关注的焦点。党的十八大以来,党中央高度重视发展数字经济,并将其上升为国家战略。习近平总书记提出了关于“做强做优做大我国数字经济”的新思想,指出:“数字技术正以新理念、新业态、新模式全面融入人类经济、政治、文化、社会、生态文明建设各领域和全过程,给人类生产生活带来广泛而深刻的影响。”2020年发布的《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,将数据作为一种新型要素,明确了完善要素市场化配置的具体举措,数据要素已经成为数字经济时代的核心生产要素,数据治理的作用也显得越来越重要。科学合理的数据治理规范,不仅是数据安全与价值的保障,也是数字经济健康发展不可或缺的前提条件。新经济时代,图书馆是知识和信息中心,也是数据中心,提供的是智慧知识服务,因此,图书馆智慧知识服务数据治理模式是值得深入研究的问题。
1 数据治理与智慧知识服务
1.1 数据治理
不同的行业领域对于数据治理的解释也不一样。国际数据管理协会(DAMA)将数据治理定义为对数据资产管理行使权利和控制的活动集合。国际数据治理研究所(DGI)认为:数据治理是一个通过一系列信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了采取行动的主体、时间、方法和内容[1]。不论哪种定义,数据治理的本质应该是一个管理体系,包括组织、制度、流程、工具,最终目标是提升数据的价值。
1.2 智慧知识服务
数字经济时代,数据的来源呈现多元化趋势,包括RFID数据、传感器数据、网络交互数据、移动互联网数据等,使得现阶段知识服务模式面临3大挑战:数据类型和数据量级的快速增长给存储和计算能力带来挑战;传统结构化数据管理模式与非结构化数据管理模式需有机融合;现有的服务模式和管理技术已经不能满足半结构化和非结构化复杂数据的处理需求。智慧知识服务是以智能技术为基础,以智慧化设备为手段,用以解决复杂数据多维度处理的服务新模式,是嵌入式协作化知识服务模式的一种新发展,是现代信息服务理念的具体体现,能够突破传统服务边界,实现深度信息获取、共享和协同功能,具备智慧化沟通、管理的服务模式[2]。实际上,智慧知识服务本质上是对数据的处理和应用,数据已经成为智慧知识服务的关键要素。
1.3 数据治理与图书馆智慧知识服务
数据是工作的基础和根本,图书馆工作也不例外。与数据息息相关的数据治理在图书馆智慧知识服务过程中发挥着越来越重要的作用,它通过智能化设备和智能技术对数据的整个运行流程进行管理,保证数据的可用性、数据质量和数据安全,使数据资源达到最优化配置,实现高效利用。
2 图书馆智慧知识服务数据治理模式框架
笔者认为,图书馆智慧知识服务数据治理模式应该包括以下4个方面内容,即组织架构、内容治理、过程治理和安全治理,如图1所示。
图1 图书馆智慧知识服务数据治理模式
2.1 组织架构
健全的组织架构是图书馆数据治理工作的保障[3],组织成员包括管理人员、业务人员和技术人员。可以设置3个工作组:数据治理委员会、数据治理业务组和数据治理技术组。数据治理委员会由馆领导和各职能部门负责人组成,负责各部门间的沟通协调,制定数据治理的目标、制度、规范、流程和标准;数据治理业务组由业务部门馆员组成,负责基础数据开发、录入、审核和数据质量检测规则、监控数据质量等工作,在数据源头提高数据质量;数据治理技术组由本馆技术人员组成,主要包括系统开发和维护人员等。系统开发人员负责各系统的研发、升级等工作,系统维护人员负责各系统后台数据的修改、备份、恢复和安全审计等工作。
2.2 内容治理
2.2.1 建立数据标准体系
资源的数字化建设应遵循标准先行原则,在建设初期就应该制定数据标准体系,保证各业务部门、各业务系统使用相同的数据标准,提高部门间、系统间数据共享能力,避免形成信息孤岛[4]。数据标准体系包括数据标准、技术标准、管理标准、数据质量标准等内容,可以成立由业务人员和技术人员组成的数据标准制定小组,负责数据标准体系的制定、维护、宣传和解释等工作。
2.2.2 数据开发
数据开发是图书馆能否顺利开展智慧知识服务的核心[5]。其实每个图书馆都有很多数据资源,但在具体服务过程中面临的问题是如何提供服务,或者能够提供什么服务,这说明认清本馆馆藏知识结构、进行深层次的数据开发和挖掘是非常重要的。这可以从以下几方面着手:①整合现有数据资源。各图书馆应根据本馆馆藏资源特色和读者类型进行有效的资源整合[6]。具体可以通过以下两个步骤完成:一是梳理本馆数据资源体系与读者阅读方向,明确阅读趋势、主要内容与侧重点;二是根据知识结构框架,对核心数据资源进行归类和内容填充。整合数据资源不仅是内容上的收集整理,更是通过明晰的知识内容归类,实现对馆藏数据资源知识体系的重新建构,使现有资源最大限度地被挖掘和利用。②采购优质数据资源。通过整合资源,明确馆藏资源的知识体系结构,对于读者需求量大而资源不足的情况,可以通过采购来弥补[7],应选择贴合本馆服务内容与方向的优质数据资源[8]。具体可以通过座谈、走访和问卷调查等多种形式建立与读者的沟通渠道,了解读者需求,使数据资源采购工作更有目的性。③拓展数据资源获取渠道。除了上述方法,还应该梳理数据资源收集渠道,并划分渠道类型,不断拓展资源获取途径[9],可以在取得授权的前提下借助其他图书馆资源;善于利用网络资源寻找国内外相关线上电子书籍资源,如中国国家图书馆提供了部分数字阅读资源开放服务,可以通过移动端进行阅览,而且推荐的都是优质的电子书资源。平时应多收集这类资源的获取方式,不断完善数据资源获取渠道和体系建设。
2.2.3 数据质量管理
数据质量管理指对数据从策划、获取、存储到维护、使用、消亡整个生命周期的各阶段可能发生的各类数据质量问题进行鉴别、衡量、监测、预警等一系列管理活动,并通过不断完善和提升管理水平使数据质量进一步提高[10]。认为数据质量管理就是修改数据中的错误、对错误数据和垃圾数据进行清理,这种理解是片面的,其实这只是数据清洗的过程,是数据质量管理中的一步[11]。数据质量管理不仅包含数据质量的完善,还包含数据分析、数据评估、数据清洗、数据监控、错误预警等内容。此外还包含对组织的改善和管理,具体包括确立组织数据质量改进目标、评估组织流程、制定组织流程改善计划、制定监督审核机制等多个环节[12]。图书馆数据质量管理应贯穿于数据的整个生命周期过程,具体包括著录信息中MARC各字段及子字段、分类标引和种次号数据;存储和修改运行过程中的数据;作为服务提供给读者的各类型数据等。通过制定数据质量管控规范,使数据质量管理人员明确在数据运行各阶段中数据治理包含的工作内容和工作流程,形成统一管理体系,保证数据的完整性、规范性、一致性、准确性、唯一性和关联性。为提高效率,可以建立数据质量管理绩效考核,检验各环节的管控效果。数据质量管理不是一次性工作,而是一个不间断的过程,需要通过定期检查和调整数据质量策略和规则,不断加以改进和完善。
2.3 过程治理
2.3.1 数据维护
数据维护岗位一般由本馆技术人员承担,主要负责包括各数据库系统的升级维护,各基础数据的修改和备份等工作。数据维护是数据治理的基础工作,其作用经常被忽视,但它是知识服务及其他工作的技术支持和保障,发挥着中流砥柱的作用。
2.3.2 数据交易
数据本身具有非竞争性和非排他性,并不适合作为私人产品进行交易,但是通过分析和加工使其增值,或采用某种技术手段限制其使用次数和范围,并能够满足人们的需求,就会产生数据交易[13],这种交易实际是把数据当作商品。当然,在实际中根据交易内容和权限可以采用有价或无偿的形式,但不论哪种形式,都会产生交易过程,因此对交易过程的管控也是数据治理非常重要的一部分。常用的交易模式有以下几种:直接交易模式,交易双方就数据交易的内容和方式进行详细约定,完成交易;资源互换模式,与直接交易模式类似,只是交易内容以数据资源互换方式进行;第三方模式,由官方牵头设置第三方作为中介,交易费用直接与第三方结算,中国高等教育文献保障系统(CALIS)采用的就是这种形式;会员制模式,比较适合俱乐部形式,数据提供商出售会员服务,消费者购买后,可以获得对应的数据访问权限;基于数据保护技术的交易模式,使用密码学和隐私计算技术,包括可验证计算、同态加密、安全多方计算、联邦学习、区块链技术等,实现数据加密或规定使用次数[14]。对于图书馆开展智慧知识服务来说,应该根据交易对象和供需双方的需求采用不同交易模式,比如针对校内申请,可以采用直接交易模式或第三方模式提供免费服务;对于校外申请可以采用数据资源互换、会员制和数据保护技术模式等方式提供有偿服务;也可根据实际情况,采用多种模式混合形式。总之,通过数据交易过程治理,能够实现数据的规范化和有效利用。
2.4 安全治理
2021年颁布的《中华人民共和国数据安全法》规定,维护数据安全,应当坚持总体国家安全观,建立健全数据安全治理体系,提高数据安全保障能力[15]。可见,数据安全已经上升到国家安全和国家战略层面。
2.4.1 制定数据安全管理制度
保障数据安全是图书馆乃至各行业领域数字化工作的首要职责[16],应该制定贯穿于数据生命周期的数据安全管理制度,包括数据产生、流通、存储、应用、销毁5个阶段。通过建立《图书馆数据安全管理制度》,规范馆员在日常工作中安全地使用数据,并且指导技术人员如何实施数据安全操作。
2.4.2 数据分级分类
安全治理的另一个重要途径就是建立数据分级分类保护制度,这也是《数据安全法》中明确规定的内容[17],其原则是依照数据来源、内容和用途对数据进行分类,按照数据的价值、保密级别、内容的敏感程度、影响和分发范围的不同,对数据进行敏感级别划分,目的是明确数据资产的分布和使用权限,并根据数据的分级分类制定安全策略[18]。图书馆数据资源种类复杂,形式和用途多样化,分级分类的方式也有很多种:按数据来源可分为自建数据、商业数据和免费数据;按内容可分为目录数据、文摘数据和全文数据;按结构可分为结构化数据和非结构化数据;按语种可分为中文数据和外文数据等[19]。笔者认为,根据图书馆的数据特征,按照基本描述、结构形式、数据量级、数据来源、增长速度、应用价值和安全级别7个分级分类原则,图书馆数据可以分成以下10个等级(见表1)。
表1是按照安全级别由低到高排序方式列出,具体实施过程中应该重点参考应用价值和安全级别,并结合其他分级分类原则制定数据安全治理准则,对于应用价值和安全级别低且易获取的数据,可以采用免费直接交易方式提供;反之,可以采用第三方或会员制等有偿方式提供。通过对数据进行有效的分级分类安全治理,才能避免“一刀切”的控制方式,实现更精细化的安全控制,使数据在共享使用和安全使用之间获得平衡。
表1 图书馆数据分级分类
2.4.3 知识产权保护
在我国现代化建设全局中,知识产权安全是国家安全的前沿阵地,知识产权保护为实现创新发展和高水平的自立自强提供了强有力的制度支撑和法律保障[20],数据安全治理中加入知识产权保护的内容势在必行。但现有的知识产权架构是工业经济时代的产物,数字经济时代,随着新技术的不断涌现,产生了大量新的数据类型,现行知识产权制度还没细化和覆盖到所有数据,加之数据的大量流动为权属认定带来难度,并且侵权行为转瞬发生,难以追踪,仍有大量数据不在保护范围内,不断引发产权纠纷[21]。解决这个问题,前述的数据分级分类就显得非常必要,要探索建立分级分类的数据知识产权保护模式,推动建立行业规范,加强数据生产、流通、利用、共享过程中的知识产权保护[22]。完善数据知识产权保护规则,能起到防止数据垄断,促进数据要素合理利用的正向价值,但同时也需注意与市场竞争规则以及数据保护规则等一系列法规的协调,才能实现更大范围的利益平衡。图书馆在进行智慧知识服务过程中,首先要树立数据知识产权保护意识;其次要对数据进行清洗、加工、分类、整理,找出数据流通过程中容易发生产权问题的环节;最后要结合数据分类分级,筛选出哪些是不存在产权纠纷可以提供服务,哪些是受到知识产权保护应先获得使用权限才能提供服务的数据。此外,随着行业领域和区域性的知识产权服务联盟不断成立,近年来,图书馆界也开始建立知识产权服务联盟,在这方面高校图书馆做的更好,截至目前,国家知识产权局和教育部公布的高校国家知识产权信息服务中心已达80家。各级各类图书馆都应该积极探索建立知识产权服务联盟的有效途径,促进知识产权保护高质量发展。
3 结语
数字经济时代,智慧图书馆和智慧知识服务蓬勃发展,数据治理是其中非常重要的组成部分,也是当下的研究热点,要清楚地认识到这是一个系统工程,需要各级人员多方协作才能完成。图书馆界应该打破传统观念的束缚,开拓创新,与时俱进,做到大处着眼、小处着手,实现全方位、精细化管控,不断探索数据治理健康发展的长效机制。