APP下载

基于数据生态系统模型的图书馆数据治理路径分析*

2021-02-04薛卫双

图书馆 2021年1期
关键词:数据管理图书馆信息

庞 楠 薛卫双

(1.华北理工大学 河北唐山 063210;2. 山东管理学院图书馆 济南 250357)

当今世界,新技术、新概念、新理论层出不穷,大数据技术即是这个时代下诞生的最为成功的科技创新产物。Gartner认为,所谓的大数据就是通过新的处理模式获取海量多样化的信息数据,而所获得的信息将以极高的增长率爆炸式膨胀。在这个背景下,数据生态系统应运而生,并很快在图书馆领域进行了应用性有机融合[1]。大数据为图书馆的数据建设和服务提供了非常强大的技术支持。随着大数据技术日渐成熟,麦肯锡全球研究所将大数据定义为:一种大规模获取、分析传统数据的集合,其凭借多元化、快速传播及价值密度低等优势,为各行各业提供科学有效的数据服务。2016年3月,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》提出要“把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新”。具体内容包括“加快政府数据开放共享”“促进大数据产业健康发展”[2]。大数据时代,与新兴信息技术融合已经成为传统图书馆向图书馆转型的重要驱动力[3]。但不容忽视是,大数据在积极促进各行各业发展的同时,也带来了信息安全、隐私泄露等一系列隐患。对图书馆领域而言,如何在发挥大数据技术优势进行数据管理的同时避免其不利影响,成为亟待解决的问题之一。这既是对图书馆管理人员的一种考验,也是迎合数字化、智能化数据服务的需求,是图书馆未来的发展趋势。

1 国内外理论分析

1.1 国外研究综述

相关调查数据显示,国外在图书馆数据生态系统的搭建及数据治理路径分析等方面的研究起步较早,综合来看主要分为两大类。

一类是基于大数据的发展。2008年9月,《科学》(Science)杂志发表了一篇有关大数据的文章,这是“大数据”一词首次被公开提出,很快在世界范围内广泛传播[4];2011年,大数据调研报告首次发布;同年5月,EMC举办了“云计算相遇大数据”大会,在此次会议中“大数据”概念正式诞生[5]。由此,大数据技术进入了飞速发展的快车道,在信息技术的支撑下迅速迭代升级。时隔仅一年,美国奥巴马政府在2012年正式推出“大数据的研究和发展计划”,该计划将“大数据”作为全球性发展战略,集合多部门,大力推动数据的采集、整合、分析等技术的优化升级。美国英领出版公司的市场研究总监Magoulas认为,只有当数据达到一定的规模和性能,并符合数据管理分析系统的重组设计要求时,这样的数据才能被称为真正的“大数据”[6]。

另一类是基于信息生态系统发展。20世纪80年代初,韦里克教授提出了SWOT分析法,他从四个方面诠释了数据生态系统的图书馆数据治理路径;20世纪80年代末,德国学者进一步提出了“信息生态学”的概念[7];20世纪90年代,美国学者在前人的基础上,正式提出了“信息生态系统”的概念,并从信息主体的角度对信息生态系统的结构展开了研究[8];近几年,有学者将生态系统的概念引入图书馆领域,将图书馆看作一个有机生态系统,分析并总结了图书馆发展至今受到的诸多影响,其中分别涵盖了文化、经济、地理以及数字化技术等各个方面的因素[9]。

国外现有的研究资料为本文的研究提供了比较有价值的参考,但在具体的应用实践中,这些研究资料还有很多不足,需要进一步完善。

1.2 国内理论研究综述

我国有关数据生态系统以及图书馆数据治理路径问题的研究起步于20世纪90年代,至今已有不少研究成果问世,相关领域的学者们各自从不同的角度对此展开了分析和探究,大致包含以下几个方面:

首先,我国的数据生态系统研究与大数据技术的研究并不对称,将相对落后的前者与较为先进的后者进行有效融合,是以往国内相关领域学者们主要的研究方向。郭自宽、张兴旺等把基于大数据基础的数据处理模式与图书馆进行结合,进一步提出了图书馆数据生态系统的框架雏形[10],并主要研究了数据管理中信息数据的采集、处理、储存、分析挖掘以及应用和展现等关键性技术与图书馆生态系统的结合。在这一时期,我国针对这一领域的研究,在某种程度上存在着以传统思维研究新兴技术的尴尬情况,更多地将注意力放在了图书馆等具体的单位上,而忽略了对大数据技术本身价值的关注。不过,这种情况很快发生了改变,有研究者开始将研究重点放在研究数据价值的体现及挖掘等方面,使大数据技术真正地成为图书馆数据生态系统的核心。

其次,大数据技术为图书馆数据管理提供了新的思路,但同时也带来了新的危机。彭羽佳等人从生态危机的角度对图书馆数据治理路径进行分析,发现自数据信息从GB时代向TB时代转变后,大数据外部环境发生了巨大改变,主要体现在图书馆数据生态系统的产生和发展两个方面。他们认为在该环境下,外界干扰压力过大会使生态系统的变化超出其自我调节能力的承受限度,系统的自我调节能力会随之丧失,此时图书馆的数据生态系统就会受到严重的损害甚至崩塌[11],这就是学者们常说的“生态系统危机”。胡文静等人以“大数据”时代图书馆生态系统的解构和重构为研究重心,从系统平衡的角度研究图书馆数据生态系统,并从交互层面分析了图书馆数据治理所遇到的瓶颈,提出了基于数据生态系统的数据治理路径[12]。

最后,SWOT分析法为大数据背景下的数据治理提供了指导方向。王红芳等人从大数据环境下图书馆数据管理的角度出发,通过SWOT法深入分析了其优势和劣势[13],认为所谓的SWOT分析,是基于内外部竞争环境和竞争条件下的态势分析,其中影响数据生态系统的内部因素包括优势和劣势,外部因素包括机会和威胁,将这些分析结果按照矩阵的形式一一排列,可从中得出结论,有针对性地对图书馆的数据生态系统展开数据治理。

2 基于数据生态系统的图书馆数据治理路径分析

2.1 SWOT矩阵分析

SWOT分析法自20世纪80年代被提出到现在,其策略分析已经得到普遍应用。结合该分析方法,本文对图书馆数据生态系统展开了可行性分析。

2.1.1 外部因素

SWOT矩阵的外部因素涵盖机会与威胁两方面,而图书馆数据生态系统同样也面临着机遇和挑战,要在机遇和挑战中维持系统稳定,必须厘清其外部的影响因素(见表1)。首先,在政府出台一系列相关政策以后,日渐成熟的大数据技术为图书馆的数据管理带来了前所未有的机会,有效地推动了图书馆由传统时代到数字时代的转型[14]。其次,对图书馆而言,这也是威胁与挑战。大数据技术虽然强化了其数据管理能力,但也使信息数据的体量骤增。需要注意的是,我国在数据管理相关方面的体系制度仍有很多不足,如信息数据获取途径较为单一、信息数据相对封闭、信息数据的无节制使用等。此外,隐私信息数据也因为挖掘信息技术的应用而存在一定程度的安全隐患。

表1 SWOT矩阵外部因素

2.1.2 内部因素

SWOT矩阵的内部因素也涵盖两个方面,分别是优势与劣势。只有厘清图书馆数据生态系统的优势及劣势,才能确定未来的发展方向。优势方面,大数据技术是技术革命的产物,它让人类使用样本代替全局的统计方法渐渐成为过去,真正做到利用全局数据对事物进行统计,相比较而言,除了能提升效率,它与真相也更加接近。此外,大数据技术能够同事物进行有机连接,图书馆借此可以了解用户的行为习惯,针对用户的偏好以及阅读习惯提供个性化的数据服务。劣势方面,在某种程度上,大数据的优势也导致了它的劣势,比如海量的信息体量会导致硬件需求剧增,给图书馆管理带来成本的劣势;开放共享的个性化数据技术,会带来隐私数据泄露的风险;而专业技术人才短缺,则更是发展大数据技术的短板。

表2 SWOT矩阵内部因素

2.2 SWOT指导分析

2.2.1 内外优势相结合

扬长避短是内外优势结合的核心办法。其一,大数据时代是图书馆数据管理的背景,技术升级给图书馆的用户带来了服务上的变革,除海量的信息数据以外,还有多元化的个性化服务等优势,所以,图书馆有必要借助移动互联网有针对性地扩大宣传范围,提升宣传效果,发挥大数据时代新媒体的优势作用;其二,个性化服务的进一步完善,需要利用大数据的技术优势,进行全局分析,并模拟用户的偏好以及行为习惯,主动推送服务。

2.2.2 避免内部劣势和外部威胁

避免内外部的威胁,核心是逆转劣势:其一,大数据环境下的信息有一个很大的问题,即信息数据的碎片化,图书馆在解决此类问题时,可以利用各种新兴的技术,与之有机融合,进一步加强信息数据的整合,以期彻底扭转该劣势;其二,虽然大数据开放共享的模式带来了安全隐患,但图书馆也可以利用该技术主动搭建安防平台,对可能带来不利影响的潜在危险因素进行评估和预测,化危机为转机。

3 图书馆数据生态系统的解构

3.1 图书馆数据生态系统的内部机理

3.1.1 图书馆数据生态系统的基础

在大数据背景下,图书馆的生态基础是信息数据。信息数据以一种跨越虚拟与现实的形式存在于整个生态系统之中,其存在的具体形式,理论上可分为泛信息空间和感知信息空间[15]。其中,信息空间的概念最早由北卡罗莱纳州立大学图书馆馆长Donlad Beagle于1999年提出。由于技术上的局限性,彼时的信息空间还只是针对物理空间与数据信息进行研究。直到进入无线网络高度发达的时代,移动互联网的广泛普及和社交网络的极度发达,使网络数据信息所依托的数字虚拟空间无限拓展,以至于它和物理空间之间的界限日渐模糊,数字信息开始可以用各种形式随意在两种空间之间穿梭[16]。当人们将人的思维模式结合进去,一种以交互为特征的新型理念与大数据技术相结合,全新的感知空间在信息的收集、筛选、传递等各方面,几乎可以满足图书馆用户的所有需求。正是在这种背景下,图书馆充分利用新兴技术,并与之进行了科学有效的融合,借助其开放而真实的各类数据,为图书馆用户提供翔实而又精准的信息服务[17]。

在图书馆中,几乎所有资源都可以被当作该生态系统中的信息数据,包括图书馆自身的运行数据、互联网数据、大量图书以及文献资料等等。这些数据几乎全部是对社会开放共享的,受益的不仅仅有个人用户,还有政府单位、商业公司、科研部门等各行各业的组织机构。在升级迭代的过程中,图书馆的数据生态系统还融合了大数据、物联网、云计算等新兴技术,且先后衍生出了联系数字空间和物理空间的诸多图书馆服务,如基于智能终端的移动图书馆、基于物联网和云计算的智慧图书馆等。而这一切的实现,都是以信息数据为前提和基础。

3.1.2 图书馆生态系统数据的生命周期

本文在描述图书馆的数据生态系统时,借鉴了生物领域中关于生态的概念,作为这个生态系统中的基础,信息数据即如生物链中的寄生虫[18],其从中间宿主进入最终宿主的过程,可被看作一个生命周期。信息数据在图书馆的生态系统中,从一个信息加工空间到另一个信息空间,然后被存储起来,等待被再次发现、利用。信息数据在生态系统中实现空间转换的过程,被视为一个生命周期。通常来说,数据生命周期中存在数据的高级加工阶段,也可以理解为给数据增加一定的附加值。本文借鉴了利兹-里昂基于e-Research的数据周期模型[19],即数据的创建和存储→数据的处理→知识交换系统→赋予数据附加值→数据的高级加工。所有数据就是在这个不断循环的过程中,进行交互与更新。数据的具体处理方式见图1。

图1 图书馆数据生态系统的数据处理方式

在进一步探讨图书馆信息数据生命周期的主体阶段时,我们将其划分为以下四个阶段:①信息数据的创建阶段。信息数据的创建是图书馆数据生态系统构建和持续的基础,数据源作为数据生态系统的数据创建者,其来源涵盖互联网数据与传统行业积累下来的数据,几乎包括了所有可以公开获取的信息,这在某种程度上保证了图书馆生态系统数据的多样性与可持续性。②信息数据的交换阶段。实际上这也是一个数据获取与传递的过程,图书馆生态系统利用标准化技术将生产者创建的数据进行整合存储,然后等待下个阶段进一步的加工与交换。③信息数据的使用阶段。这一阶段实际上是为了满足图书馆用户或消费者的需求,图书馆会根据用户的偏好与习惯,为用户提供数据的搜索、阅读等服务。除此以外,图书馆还会依托大数据技术将各类信息数据进行关联,继而实现其附加值的增加。④信息数据的加工阶段。该阶段作为一个生命周期的最终阶段,既扮演了终点的角色,同时也是下一个周期的转接点。在这个过程中,系统会对所有信息数据进行再加工,以期进一步增加其附加值。这也是使信息数据实现其价值的主要阶段。

3.1.3 图书馆生态系统数据的多样性内涵

图书馆数据生态系统的信息数据一般涵盖了传统信息数据和互联网信息数据,既有结构化的数据也有非结构化的数据。传统数据的特征往往集中且单一,只具有一种属性,而大数据内涵已经发生了翻天覆地的变化。依托于移动互联网和智能移动终端的广泛普及,各类社交媒体以及电商应用以井喷之势迅速占据了人们的生活。基于庞大用户群体的个人信息数据以及消费数据,被汇集成了蕴含巨大潜在商业价值的海量信息数据。正是这种在信息数据类型上的广泛融合,使图书馆能在传统数据的基础之上,充分利用大数据的商业价值,进而使其数据生态系统充分发挥影响与作用。

3.2 图书馆生态系统的外部条件

研究发现,在具体实践中,图书馆用户或数据消费者的需求发生改变、时代风口带来的各种红利、政府相关政策的颁布和实施,都会对图书馆数据生态系统带来一定程度的影响。①图书馆用户或数据消费者的需求。在传统的市场环境里,图书馆对用户需求的满足程度,受生产资料、劳动力以及科技水平的影响。也就是说,在生产资料、劳动力基本不变的前提下,科技水平决定了图书馆满足用户能力的大小。传统图书馆由于能力有限,很难满足用户各种各样的需求。但是,随着大数据时代到来,无论科技水平还是信息数据,都有了质和量的飞跃。这就使得满足图书馆用户多元、精准、个性化的需求成为可能,也促进了图书馆数据生态系统有方向性地进行迭代更新。②时代风口。大数据技术不但为人们的生活带来便利条件,更引导世界进入了“数据驱动经济”的时代。图书馆出于自身发展的需求,应该抓住时代的风口,积极运用新兴技术,进一步完善数据生态系统。③政府相关政策的颁布和实施。除了以上两点,政府基于我国的实际情况出台的相关政策法规也会带来一些较为积极的影响。如2015年8月国务院发布的《促进大数据发展行动纲要》、2017年发布的《大数据产业发展规划》以及2018年发布的《推动企业上云实施指南》等等,这些都会对与大数据相关企业的发展产生促进作用,基于大数据技术的图书馆数据生态系统显然也会受到积极影响。所以,营造健康的政策环境,对图书馆生态系统的良性发展具有积极推动作用。

3.3 系统的框架特征

大数据背景下,图书馆数据的体量和质量都得到了极大的发展,为构建数据生态系统提供了不可或缺的基础条件。本研究的模型搭建(见图2)借鉴了生态学中的概念,以信息数据为基础,在各个信息加工空间中不断进行转移,循环往复。生态系统运转的过程,也是各个要素之间相互适应磨合的过程,系统在运转中维持一定程度的平衡。除了系统内部环境外,以政治、经济、文化为代表的外部环境的健康程度也会对系统产生相应的影响。

图2 模型搭建

4 图书馆数据治理实践

4.1 加强图书馆数字资源的建设

图书馆的数字资源就是数字化的信息数据,这也是图书馆数据生态系统中最重要的组成部分。通常情况下,图书馆的数字资源通过购买商业性数据、获取免费数据、将馆藏图书资料数字化这三种渠道获得。前文的SWOT分析指出,图书馆生态系统在信息数据的获取方式上存在着获取途径过于单一、信息数据相对封闭、信息管理混乱等问题[20]。所以,我国图书馆的数据治理做到有的放矢很有必要,应该针对相关问题及困境提出相应的解决方案。

对此,图书馆应该扩展自有信息数据的体量,因为只有高质量且多元化的数据才能满足当前用户的多样化需求。一般而言,图书馆在资金并不充裕的情况下,合法增加信息数据体量的途径是获取免费信息数据和将馆藏文献数字化[21]。但通过以上途径获取的信息数据资源和传统的数据资源仍存在一定差异,所以在进行信息数据加工时,方法和工具也会有差异。除此以外,根据所服务用户的不同,选择获取的途径也要有针对性地改变。如针对科研人员的学术类信息数据,势必要获得高校的支持,图书馆与之共享各类专业性资源能使数据库在广度和深度方面更上一层楼。

针对自身各类具体业务的实体数据,图书馆可以建立专门的描述数据库,在优化元数据管理效率的同时,促进实体数据在其生命周期内被更加高效、规范地利用,以产生应有的价值,同时还能进一步提升信息数据的质量。这既满足了图书馆用户多元化、个性化的需求,也使信息数据相对封闭以及信息管理混乱等问题得到了有效的治理。

4.2 借鉴管理数据周期的相关经验

我国图书馆进行数据管理的时日尚短,在国内相关领域几乎没有成熟的经验可以借鉴,只能摸着石头过河。因此,借鉴国外相对成熟的管理经验以确保信息数据的科学有效十分必要。图书馆应该依照数据的生命周期对数据展开管理,这就对数据管理责任者提出了较高的要求,即:明确图书馆各部门的职责划分,在数据的获取、整理、分析、存储等阶段各司其职以提高数据处理效率[22]。除此以外,大数据时代的数据安全尤为重要,规范化的信息数据管理很有必要。信息数据在复制、转移以及版本迭代的过程中可能存在丢失的安全隐患,而多部门、多人员的参与,进一步增加了此类风险。所以,图书馆在数据生命周期的管理实践中设置相关操作规则,将在一定程度上提升数据的安全性。

除了信息数据的获取和整理以外,图书馆在进行数据的生命周期管理时,同样有必要提升其数据服务的能力。根据已往的研究成果,我们可以将针对数据的相关服务划分为三个层级[23]:首先是针对图书馆信息数据生命周期的基本维护,如数据存储、元数据库、信息交互等项目的构建和维护,除此之外,如何科学地使数据生命周期进行稳定且有效的循环也是该层级需要解决的问题;其次是在数据生命周期中,提升对信息数据处理的支持能力,为相关用户提供更加多元化的数据服务;最后是对信息数据获取与搜索的无限强化,通过建立功能强大的信息数据中心以及搜索引擎,为图书馆用户提供将各类数据进行科学链接的数据服务。

4.3 完善相关制度,明确管理责任

当图书馆数据由传统数据时代过渡到以大数据为代表的数字化时代后,数据的大规模化和集约化就成为了信息数据在数字时代的基本特征。但很多问题也随之出现,例如数据管理的隐私问题存在安全隐患,大数据技术对数据生态系统可持续性的支持如何得到保障,都是亟待解决的问题。图书馆可以通过数据治理解决以上问题,这就需要完善相关制度,明确管理责任。

完善制度和明确责任在数据治理的实践中,具体表现就是在组织结构与职责上设置科学合理的指导原则,强调各部门的分工合作,从图书馆的实际情况出发,展开元数据、实体信息等相关数据的具体管理工作。在大数据背景下的数字时代,海量信息的无节制使用,造成了很多隐私数据存在泄露的风险,并且信息数据的网络安全也暴露出一些问题。图书馆对于这些问题应有针对性地开展数据治理,加强信息数据的保护,同时软硬兼施,双管齐下:一方面对数据安全系统进行全方位的更新升级,并对相关数据实行分级加密;另一方面则要提升图书馆工作人员的法律意识,加强隐私信息数据的保护。如运用大数据技术搭建智能化的安防平台,针对信息数据的潜在风险进行评估。除此以外,保障实体信息数据安全的主要做法是防止其被盗用,对拥有知识产权的信息,更是要拿起法律武器确保利益不受到损害。

大数据对图书馆数据生态系统的技术支持至关重要,只有实现大数据技术的可持续性发展,才能更好地保障实体信息数据价值的实现。而未来大数据除了实现信息数据的资源化,更要与云计算深度融合以增强其核心竞争力,这对于图书馆数据生态系统的深度强化将具有明显的促进作用。

4.4 创新图书馆的数据管理

大数据时代下的图书馆与传统意义上的图书馆已有极大差异,前者适应了当今时代图书馆用户渐趋整合式的需求,对信息数据的管理方式做出了一定程度的调整[24]。当下既是大数据时代,也是知识经济时代,人们对知识的需求程度远远超过以往任何一个时代。因此一种集合多种类数据资源、可以对信息数据进行检索和获取的整合平台应运而生,这也成为数据资源管理未来的发展趋势。但是,当前多数门户平台的信息数据都有碎片化的局限性[25],图书馆信息数据兼具深度和广度的优势就此显现出来。基于此,图书馆数据管理的未来趋势是创建一个以检索和获取信息数据为主的门户式数据中心,它能够将分布于各个数据库、相对孤立封闭的数据资源关联起来,实现内部与外部所有信息数据的共享及融合,为所有图书馆用户提供开放且系统化的信息数据服务。

5 结语

大数据作为这个时代集大成的科技创新产物,为图书馆的数据管理带来了全新的模式。融合了大数据技术的全新数据生态系统,能够为用户提供多元化、个性化的数据服务。本文结合SWOT分析法解析了该生态系统,并根据研究机理,搭建了模型框架,并据此就图书馆的数据治理提出了相关实践路径建议,对图书馆数据生态系统的理论研究及数据管理的创新具有一定的启发意义,但怎样才能由理论走向实践,是未来需要考虑的关键问题。

猜你喜欢

数据管理图书馆信息
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
图书馆
订阅信息
飞跃图书馆
展会信息
去图书馆
健康信息