APP下载

大数据时代图书馆开放数据服务平台与开放数据服务模式研究

2016-01-19马晓亭尚庆生兰州商学院信息工程学院兰州730020

图书馆理论与实践 2015年5期
关键词:大数据时代图书馆

●马晓亭,尚庆生(兰州商学院信息工程学院,兰州730020)

大数据时代图书馆开放数据服务平台与开放数据服务模式研究

●马晓亭,尚庆生(兰州商学院信息工程学院,兰州730020)

[关键词]大数据时代;图书馆;开放数据;服务平台与服务模式

[摘要]研究了图书馆开放数据的内涵,如何基于开放数据对图书馆的服务理念与模式进行变革,以及最终如何实现面向开放数据环境的图书馆角色转换。最后,对大数据时代图书馆开放数据的服务平台和服务模式进行了研究。

1 前言

伴随大数据时代的来临,数据将成为决定图书馆服务有效性和市场竞争力的关键因素,是关系图书馆服务模式变革、服务创新、提高个性化服务水平和增强服务透明度最重要的战略资源。图书馆大数据环境具有数据采集源单一、资源总量偏少、价值密度低、公信力差的问题。因此,如何破除大数据环境中原有的利益格局,实现图书馆内部系统、政府部门、合作服务商和社会团体大数据资源的全面开放与共享,是增强图书馆大数据资源的可用性、可控性、可检索性、可解释性、可再利用性、可被引用性、可管理与保存时效性的关键。[1]

维基百科对开放数据(Open data)的定义是:“一种经过挑选与许可的数据,这些数据不受著作权、专利权,以及其他管理机制所限制,可以开放给社会公众,任何人都可以自由出版使用,不论是要拿来出版或是做其他的运用都不加以限制。”世界各国的政府和企业都十分重视大数据资源的开放与共享。美国于2009年开始实施“开放政府计划”,提出利用开放的网络平台公开政府信息,提高政府效率,推动政府管理向开放、协同、合作迈进。2009年12月,英国政府发布了“第一前线:更聪明的政府”的报告,提出政府应从根本上开放和促进透明度。2010年5月,澳大利亚政府发布了“开放政府宣言”,以增加政府的透明度。2010年11月,欧盟通信委员会向欧洲议会提交了“开放数据:创新、增长和透明治理的引擎”报告,首次将开放数据与大数据关联到了一起,并以开放数据为核心,对大数据时代的挑战进行了战略部署。目前,我国政府和企业也认识到数据开放的重要性,加快了开放数据的立法和应用研究。[2]

2 大数据时代图书馆数据开放的需求与挑战

2.1读者个性化阅读活动需要“数据开放权”

复杂大数据环境下,数据资源不仅仅是图书馆生产力和服务资源的重要组成部分,而且是读者服务“知情权”和“数据权”的有效载体,大数据开放的安全性和有效性已成为图书馆读者权益和服务质量保证的重要因素。同时,数据开放也关系图书馆生产资源的可靠获取、数据高效整合和服务能力的创新,可有效提升图书馆的市场竞争力和QOS(服务质量)保障。大数据环境下,图书馆数据资源依据访问权限对特定组织或者个人的共享模式已不能满足图书馆对读者个性化阅读活动的服务需求。取消法律和图书馆规章制度对数据的限制,把受限制的公共数据无条件地向任何机构、团体和个人开放,将是读者拥有“数据开放权”的最高目标。[3]

2.2大数据开放的读者隐私保护需求

读者隐私保护是关系图书馆服务质量和用户阅读满意度的关键因素。为了确保读者个性化阅读服务可预测、判断、决策和评估,图书馆会通过传感器网络、数据中心系统运行监控设备、用户阅读行为采集设备和第三方共享数据库,获得海量的读者个体特征、阅读行为和社会关系数据。[4]全球复杂网络权威巴拉巴西认为,人类行为的93%是可以预测的。因此,图书馆如果对读者大数据资源进行完全、无限制的开放,人们通过对读者大数据资源的处理、整合、分析和判断,在读者个人信息的获取上往往会产生“1+1>2”的效果,可能会侵犯用户隐私。大数据资源开放过程中,图书馆如何制定用户隐私数据的判别和认定标准,是关系读者隐私保护有效性的重要因素。另外,在保证用户隐私数据安全、高效、经济和可控的同时,不降低数据的开放程度和可用性,也是图书馆应重点关注的一个问题。[5]

2.3开放数据要求大数据资源具备较高的公信力

数据是图书馆读者需求发现、服务决策建立、服务质量优化和服务有效性评估的最直接依据。因此,图书馆开放数据的公信力和可用性,将直接影响用户服务模式的有效性和服务质量的保证效率。随着科技的发展,图书馆大数据采集和存储的成本大幅下降。如何利用科学的数据价值发现、过滤和挖掘技术,不断提高大数据资源的价值密度和可用性,是增强图书馆数据开放公信力和使用有效性的关键。作为图书馆用户服务生产资料的开放数据,其公信力将是关系图书馆生产力和服务竞争力可持续发展的重要因素。[6]

2.4开放数据应以图书馆大数据资源公开和增值为目的

与政府部门拥有的大数据资源相比,企业、个人和其他社会团体拥有的数据具有少量、简单、片面、价值密度低和可用性差的特点。因此,如何将图书馆数据资源融入政府大数据库,在确保国家安全和利益的前提下,实现图书馆数据与政府数据的完全共享与开放,是图书馆提升数据开放程度和降低政府数据获取成本的关键。此外,图书馆大数据资源具有多源和多数据类型的特点,不同的网络协议、系统架构和规则是影响数据采集、存储、处理和使用有效性的重要因素。图书馆应极大限度地加强大数据资源在不同信息空间和用户间的开放、共享与重用,确保大数据资源的无限获取、增值与二次应用;应注重加强与政府部门、第三方服务商和读者的交流与合作,不断增强开放数据库的价值密度和可用性,最终实现开放数据的开放性增值。[7]

2.5数据开放对大数据资源的流动与共享需求

从本质看图书馆大数据资源主要由用户服务数据、系统管理与运营数据、读者行为数据、读者社会关系数据等组成,数据具有可增值性、无消耗性和非排他性的特点。与其他行业、部门的数据资源对比,图书馆数据具有来源广泛、数据分散、价值密度低、类型多样、结构化与标准化程度低、时空特性突出的特点。在传统服务环境下,图书馆数据资源仅限于单位内部小范围的使用和共享,没有实现面向图书馆内部和社会整体的完全开放,导致数据重复采集、存储、处理和分析,严重影响了数据的流动、共享和使用,造成巨大的人力、物力资源浪费。因此,图书馆只有加强大数据资源的开放性、流动性和共享程度,才能提升数据的科学、社会、经济等价值属性。此外,图书馆数据的流动与共享,涉及诸多法律政策、行业规范、系统技术、服务需求、效率经济等多方面因素,如何改变图书馆传统的数据占有权和利益观念,是确保海量、分布、多源、异构数据流动与共享的关键。[8]

3 图书馆开放数据的界定与数据开放平台系统构建

3.1图书馆开放数据的界定

图书馆的大数据与开放数据关系密切,相互之间存在交集但又各自独立。开放数据几乎覆盖图书馆的系统管理与运营、用户管理与服务、服务模式与服务方法变革、服务创新的所有领域,为大数据的合理开发和科学使用提供了新的方法与途径,大幅度降低了大数据使用的成本和风险。[9]

大数据时代图书馆开放数据组织结构如图1所示。

图1 大数据时代图书馆开放数据组织结构图

第三方开放数据是指由政府、企业和图书馆服务协作商开放共享的数据资源,具有开放对象多、涉及

范围广、数据价值提取难度大和时效性要求高的特点。图书馆开放数据则是在保证图书馆数据安全和可控的前提下,可对任何机构和个人公开,并通过图书馆的授权而再次利用和增值的数据,对使用者访问权限的认证要求较低。图书馆开放数据主要由部分已开放的大数据资源、由多方共享的开放大数据资源、图书馆共享的第三方公开数据、图书馆未录入大数据库的公开数据组成。图书馆开放数据继承了大数据的部分特性,具有数据采集源和数据类型多样化的特点。此外,开放数据还覆盖了图书馆的系统运营、用户服务、服务模式变革、服务市场与用户管理等所有领域。[10]

3.2图书馆数据开放平台系统的构建

图书馆数据开放平台系统是基于数据安全存储与管理、高速服务框架、云计算、数据开放服务、数据检索与查询、数据推荐等技术,为用户提供包括从数据的采集、存储、类型转换、选择与推荐、编目、发布、更新的全生命周期管理与服务,可确保开放数据安全、高效、全面、准确、实时、开放地供用户使用。[11]

本文构建的图书馆数据开放平台系统结构如图2。

图2 图书馆数据开放平台系统结构

该平台系统主要由开放数据安全管理与防御平台基础结构、数据类型转换与标准统一平台、数据中心存储系统、数据开放与应用技术、数据开放核心服务层、开放数据服务平台6部分组成。开放数据安全管理与防御平台主要负责系统的安全工作,为上层结构提供安全、可靠的系统运行环境。数据类型转换与标准统一平台,对采集的数据进行模式转换和标准统一,以增强图书馆对开放数据的可识别、可应用和可控制水平。图书馆数据中心主要由图书馆开放数据库、第三方开放数据库等组成,负责对不同来源的数据进行存储、描述与定义。数据开放管理与应用技术主要基于底层平台的支持,对开放数据进行存储、搜索、推荐和智慧应用等服务。数据开放的核心服务层依据用户的需求,有针对性地为用户提供数据开放服务。开放数据服务平台是系统结构的最高层,是开放数据系统与用户的高级接口,基于底层服务支持可实现系统与用户的智慧对话、信息交流和用户管理,以及系统平台的维护和功能扩展。[12]

3.3大数据时代图书馆数据开放的服务模式

3.3.1图书馆开放数据服务的内容和服务方式

图书馆应加强与地方政府、第三方服务合作商、图书馆内部不同部门间的数据开放与共享,实现数据的二次整合、增值、共享和再利用。从数据的产生过程和使用途径看,图书馆在履行用户公共服务职能、智慧城市建设、用户服务内容与模式变革、增强管理与服务系统性能的过程中,产生、采集的公共数据均可以用来开放和共享。开放数据的选择应坚持不损害国家利益、不影响图书馆系统安全、不降低服务系统性能和不侵犯读者隐私的原则。

图书馆开放数据服务应坚持多知识领域数据源整合与开放的原则,实现数据资源价值的二次发现和提升。确保用户可通过图书馆的“一站式”检索服务平台快速搜索所需要的数据,并实现基于数据共享和互操作的框架,完成基于开放数据的智能分析、判断和决策。图书馆数据开放应坚持消除数据所有者和需求者信息不对称的原则,坚持数据开放可视、可咨询、可分析的原则,实现管理平台对开放数据的无缝整合和完善补充。图书馆开放数据应统一数据标准和对开放全程实时监管,当发现错误、不精确、无索引和模式不兼容的数据时,应及时对此类数据进行修改、合并、标引、分析与索引。[13]

3.3.2实现图书馆数据统一、全方位的开放

图书馆数据开放应建立统一的数据开放网站,以公共数据、服务数据集、应用程序资源、服务系统与程序代码等为重点,实现图书馆数据统一、全方位开放,满足读者个性化服务需求和支持图书馆服务创新。在坚持数据公开和信息透明原则的前提下,还应加强对数据的整合和价值二次深度挖掘,努力发现数据内部蕴涵的隐性知识。读者个性化阅读服务具有突发性和随机性特点,图书馆可根据采集的读者需求、阅读行为和服务系统监控数据,准确预测未来读者个性化阅读活动的群体数量、所需的服务资源、服务系统与网络面临的瓶颈问题、读者阅读模式和服务需求的变化趋势等,提前对读者服务模式和系统资源进行分配、调控和优化,不断增强服务的安全性、效率、经济性和个性化水平。数据开放过程应实现数据的实时

过滤和分析,并以直观、可视化的形式表现出来,通过基于数据的科学决策提高自身的市场需求预测和竞争能力判断。此外,图书馆应实现全方位的数据开放,构建基于开放大数据的读者服务决策、管理、调度和优化系统,智能、自动化地依据读者个性化服务需求和服务市场变化情况,调整、优化图书馆用户服务的模式和方法。[14]

3.3.3数据开放过程应加强读者隐私保护

随着云计算、物联网络、传感器和高速无线网络技术的发展,读者阅读服务具有高速、实时、移动和低成本的特点。阅读终端设备在为读者提供个性化阅读服务的同时,也即时采集着读者的阅读内容、阅读模式、地理位置和社会关系等数据。此外,图书馆的服务系统监控设备、用户行为采集设备和摄像头等,也大量采集着用户的个体特征与行为数据,成为图书馆大数据库和开放数据库的主要数据来源。因此,大数据时代读者阅读活动可能会导致用户隐私泄露和被侵犯。图书馆应加强读者个体数据开放过程中的隐私保护,确保服务具有较高的安全性和用户满意度。

首先,图书馆应保证读者拥有对自身行为数据采集、存储、使用和共享的知情权与决定权,有权决定自身数据的开放时间、内容、程度和方式,可依据隐私保护需求对数据进行访问权限限制、删除和修改。其次,图书馆在数据开放过程中,应采用隐私匿名和采集读者群体特征信息的方式,消除数据中隐含的用户个体特征信息,确保在不影响数据开放性和价值的前提下,维护读者隐私安全。此外,读者个体数据应坚持分层次开放和分级保护的原则,将数据划分为原始采集数据、行为过滤数据和服务统计数据三个层面进行开放。在坚持不侵犯国家利益和读者隐私的前提下,实现读者个体数据的分层次开放和分级保护。最后,图书馆业应根据读者隐私保护需求,不断完善政策法规和行业规范,确保用户隐私保护可界定、判断和评估。[15]

3.3.4逐步实现数据资源的透明开放

首先,图书馆数据开放应广泛听取读者、社会和第三方机构的意见,坚持合法、公开、透明和合作的原则,合理选择数据开放的内容、原则、方式和对象。其次,数据开放应坚持全面和透明的原则,取消对开放对象、内容和使用权限的限制。对关系国家安全和公民隐私的保密数据,图书馆应实时监控获取对象访问、下载数据的时间、内容与流程,并周期性地检查安全系统对开放数据访问权限管理的可靠性。再者,开放数据模式应坚持标准化和多样性的原则,数据格式应包括RAW、CSV、RDF、XML、JSON等,支持使用者对开放数据进行二次加工、开发和应用。此外,图书馆数据开放平台建设应坚持公平、开放、透明和可扩展的原则,易兼容其它数据管理平台与数据库系统,可通过“一站式”的服务提高数据开放效率和减少管理成本,能够有效防止数据欺诈与滥用。[16]

[参考文献]

[1]吴旻.开放数据在英、美政府中的应用及启示[J].图书与情报,2012(1):133-136.

[2]刘春丽,徐跃权.开放科学和开放数据环境中专业图书馆的新角色[J].图书馆建设,2014 (2):83-88.

[3]容春琳.公共图书馆应用大数据的策略研究[J].图书馆建设,2013(7):91-95.

[4]钟声.大数据驱动的高校图书馆数据监护探究[J].情报资料工作,2014(3):103-106.

[5]徐佳宁,王婉.结构化、关联化的开放数据及其应用[J].情报理论与实践,2014,37(2):53-56.

[6]张峥嵘,刘亚丽.大数据时代的图书馆开放数据服务探析[J].图书与情报,2014(2):120-122.

[7]周志峰,黄如花.国外政府开放数据门户服务功能探析[J].情报杂志,2014(3):144-147,165.

[8]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.

[9]The Wall Street Journal.Big-Data Success Stories:Splunk[EB/OL].[2014-06-12].http://blogs.wsj. com/venturecapital/2011/10/21/big-data-success-stories-splunk.html.

[10]杨鹤林.从数据监护看美国高校图书馆的机构库建设新思路——来自DataStaR的启示[J].大学图书馆学报,2012,30(2):23-28.

[11]姜山,王刚.大数据对图书馆的启示[J].图书馆工作与研究,2013(4):52-54,79.

[12]李佳佳.信息管理的新视角—开放数据[J].情报理论与实践,2010(10):35-39.

[13]German National Library.Linked data service of the German National Library[EB/OL].[2014-06-27].http://www.d-nb.de/eng/hilfe/service/linked_data_service.html.

[14]Communication Commission.Open data engine of innovation,economic growthandtransparentgovernance [EB/OL].[2014-06-27].http://eceuropa.eu/information_society/opendata2012/data/es.pdf.

[15]李佳佳.信息管理的新视角:开放数据[J].情报理论与实践,2010(7):35-39.

[16]姚乐,等.政府开放数据与智慧城市建设的战略整合初探[J].图书情报工作,2013,57 (7):12-17.

[收稿日期]2014-08-29 [责任编辑]邵晋蓉

[作者简介]马晓亭(1974-),女,辽宁省辽阳人,硕士,兰州商学院副教授,研究方向:大数据、图书馆建设与服务;尚庆生(1972-),男,甘肃兰州人,博士,副教授,研究方向:大数据技术。

[文章编号]1005-8214(2015)05-0072-04

[文献标志码]A

[中图分类号]G252;G250.76

猜你喜欢

大数据时代图书馆
图书馆
时间重叠的图书馆
图书馆
大数据时代下计算机信息处理技术的应用
大数据时代背景下高职院校宣传思想工作的思考与实践
大数据时代下图书馆的服务创新与发展
大数据时代高校学生知识管理
从“数据新闻”看当前互联网新闻信息传播生态
去图书馆