大数据时代下的图书馆跨界服务信息安全技术问题及对策
2016-02-13山西大学经济与管理学院
王 彤(山西大学经济与管理学院)
大数据时代下的图书馆跨界服务信息安全技术问题及对策
王彤(山西大学经济与管理学院)
摘要:在跨界服务概念为信息资源建设、图书馆服务模式转型带来优势的同时,会伴随产生新环境下的信息安全技术问题,这些问题的解决迫在眉睫。通过对大数据时代下图书馆跨界服务的特征及服务方式的分析,指出图书馆进行信息服务过程中的知识产权保护、隐私数据保护、恶意攻击和计算机病毒、数据存储兼容和容灾等安全技术问题,并针对这一系列问题提出了对数据存储及保护、知识产权的保护和访问控制等相关对策。
关键词:图书馆跨界服务;大数据;信息安全;技术问题;对策
1 引言
在信息技术行业,大数据产业被普遍定义为:“建立在对互联网、物联网等渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息服务业”,[1]通常将大数据的特征概括为以下4V:Volume(数据量大与数据完整性)、Variety(数据多样性)、Velocity(响应速度快)和Value(获得洞察力和价值)。图书馆作为数据、信息、文献、知识的高度集中机构和信息服务提供场所,正是契合着这样的数据特征和服务要求。大数据环境下,无论是对信息资源的有效整合及利用,还是所提供服务的深度、广度和特色性、主动性,具有专业优势的图书馆缺乏核心竞争力,极易被网络和内容生产商、供应商等抢去信息服务空间,甚至可能被完全替代。因此,图书馆跨界服务是寻求未来发展出路和实现自身变革的必然结果。然而,由于其开放性的必然要求,在跨界服务为信息资源建设、信息服务质量、图书馆服务模式转型带来优势的同时,信息安全技术的重要性也随之上升到了新高度。
2 图书馆跨界服务及其方式
本文所描述的跨界服务是指图书馆在参与文献、信息、知识的生产、分析、传播和利用的过程中,以实现高效利用信息资源、拓展图书馆服务业务、提高各用户的社会价值和经济价值为目的,在不同的信息系统或信息环境下与其他组织机构开展业务协同或互联互通的合作性服务。[2]图书馆跨界服务能够创造性地提高自身和各合作组织机构的信息资源利用率和信息的流通,拓宽信息服务领域,在低成本条件下不仅能够实现图书馆从图书管理到知识整合、从传播知识到全方位的知识服务、从被动接受用户到主动推送服务完美转型,而且,通过对用户信息行为的深度挖掘,让用户享受到“一站式”的信息服务,为知识创新提供有利的氛围和条件。这不但顺应大数据时代下信息服务机构的发展需求,还能更广泛地实现各组织机构以及用户的社会价值。
2.1基于信息运动的跨界服务
信息运动是用信息链来描述的,信息链是由事实、数据、信息、知识和情报五个链环组成的。刘细文教授认为,图书馆的信息加工组织、服务提供甚至生存发展都依附于信息链的各个链环,因此,图书馆应该针对处于信息链不同层次用户,结合数据分析、数据挖掘、信息过滤等技术,加强对用户行为数据的分析,提供个性化、多样化和定制化的创新服务。[3]
2.2基于知识组织创新过程的跨界服务
即基于知识链的跨界服务,可以看作是对信息运动过程中从信息到知识这一环节的延伸。图书馆应借助互联网信息平台,利用大数据环境特点,发挥数字资源优势,汇集各种数据流、信息流、知识流,围绕知识的生产过程、认证过程、存储过程、组织过程、传播过程、利用过程、创新过程等一系列循环流程实现知识链的动态构建与管理,开展集成化、系列化、一体化跨界信息服务,成为重要的知识核心。这样的跨界服务可以使得信息加工程度更加深化、图书馆服务范围更加宽泛,既能够满足用户的需求,又能够促进业界信息资源的共建共享,迎合知识经济时代信息服务机构发展的要求。
2.3贯穿用户工作流的柔性跨界服务
在大数据时代,图书馆更重要的是满足用户对知识概念的理解、知识逻辑关系的展示、知识推理、知识挖掘的需求,参与用户知识创造的过程,[4]帮助用户进行一系列信息活动,主动向用户提供高效率的跨界服务。如:图书馆提供跨界服务为用户描绘知识图谱,以时间、地域为轴线,通过可视化方式将信息资源呈现给用户。[5]以明尼苏达大学图书馆提出的在线研究环境(Online Research Environment)为例,该系统集成了研究进度管理、动态前沿跟踪、交叉学科研究、信息资源推荐、研究团队协作交流、个性化知识树构建等新型服务。
2.4联结服务主体的集成跨界服务
由于搜索引擎、网络出版商、社交网络平台以及各种软件应用的逐步兴起,图书馆提供信息服务的重要地位受到了严重冲击。因此,图书馆应该主动适应新的信息环境,积极应对,与搜索引擎服务方(如Google、百度)、文献管理系统(如Endnote、NoteExpress)、网络教育服务方 (如 Mooc、2tor、Blackboard)、网络社区化知识平台(如Cyworld、豆瓣、知乎、Linkedln)等大众化、商业化的网络信息平台结成联盟,形成集成优势,实现行业共赢的美好愿景。
3 大数据环境下跨界服务中存在的安全技术问题
信息资源同其他资源一样,是有价值的。信息安全是图书馆跨界服务的基础要求。如果信息安全缺乏保障,那么跨界系统建设就会是空中楼阁,一旦发生问题,损失不可估量。由于信息技术的迅猛发展,新的安全威胁不断产生,因此信息安全的概念也在相应地更新,尤其在大数据时代,其影响愈发深远。信息安全问题最大的一个特点就是隐蔽性,在不知不觉中就可能使信息服务机构蒙受重大损失。不同于普通的图书馆联盟,图书馆在进行跨界信息服务过程中的信息安全要面临来自更多不同领域的挑战,无论是安全技术、人的行为,还是管理理念及制度,都是不容忽视的重要方面。本文主要从安全技术方面进行讨论。
3.1对知识产权及衍生知识产权的保护问题
在大数据环境中,图书馆跨界服务会构建由海量信息资源组成的共享知识库,以实现信息资源共享与交流。大量的数字化信息资源在网络环境中传播,极易被截取或复制,各种尖锐的知识产权矛盾由此而生。更有其极,在云共享和分布式存储成为数据存储主要发展方向的今天,知识产权矛盾不断产生新的问题:各机构通过购买云服务,把自己的数字资源交给云服务商托管。按照传统知识产权观念,数据所有者应该完全拥有被托管数据的知识产权,但是在现实过程中,当数据被交给云服务提供商后,他们会深入挖掘自己作为“数据核心”的潜在价值,想方设法对这些数据加以利用。近年来,随着云服务的推广和技术的发展,不断有服务提供方以数据整合、数据挖掘、知识服务的名义以用户原始数据为基础进行二次开发。以OCLC(联机计算机图书馆中心)为例,其每季推出的高校图书馆与科研图书馆推荐书目、作品的服务,是其利用WorldCat联合编目库中集成的馆藏数据开发出的一系列新产品。其Web级云计算图书馆集成系统一旦上线,将会收集大量图书馆的读者信息及借阅信息。这些数据本是仅属于成员机构的,但若云服务提供商加以二次开发而生成新产品或新服务,其知识产权的界定将成为新的问题。[6]
3.2用户隐私保护问题
大数据背景下,图书馆跨界服务能为用户提供丰富的知识服务——知识挖掘、知识评价、数据分析等。在利用大数据手段整合、分析、挖掘馆藏数字资源内汇集的海量数据信息时,会涉及大量个体用户和机构的私密信息,如果没能对这些数据进行妥善处理,可能会对社会和自身带来严重威胁。在提供跨界服务的过程中,图书馆收集的用户信息包括用户资料、读者行为、习惯偏好、个人位置信息等,甚至已经深入到微博、微信等社交网络,存在极大的商业价值,如果不慎泄露,对用户的生活造成困扰,甚至威胁用户安全。
3.3计算机病毒和恶意攻击
图书馆跨界服务是通过互联网传递信息与数字资源并提供服务的,海量的信息资源将吸引众多攻击者,不可避免地成为黑客容易攻击的目标。他们通过寻找互联网环境内的安全漏洞,广泛利用0day漏洞和新型APT攻击、各种病毒来窃取用户资料或破坏存储和传输的信息。这会对服务的数据环境安全带来巨大挑战。尤其在混合云环境中的分布式存储条件下,数据和业务流程既可以在本地部署也可以在云端部署,或者在本地和云端同时部署,而为保证云端数据不被意外毁损、丢失,不被非法获取、分析或运用,保证云服务的稳定性、长期性、有效性、数据安全性等,都使得数据跟踪和信息处理成为一大难题。
3.4访问权限问题
在跨界服务的数据合作系统中,由于知识分类和内部合作权限不同,图书馆及其上游的信息提供机构都同时作为数据使用者和数据管理员登录,都具有数据的创建、更新、整合及浏览的权限,用户的复杂性带来更加复杂的权限管理问题。另外,在云计算环境中,合作成员对放置在云服务器中的数据和计算的控制变得困难,对于数据是否受到保护、计算任务是否被正确执行都不能确定。[7]并且访问控制角色的动态授权和角色赋予后用户访问行为的监控乃至角色类型的新增等,也都面临更复杂的问题。
3.5数据存储兼容需求
根据相关调查,当前,数据库类型数据每年以25%的速度增长,而传统技术难以处理的音频、视频、图片、网页等非结构化的数据每年以50%~75%的速度增长,海量数据的存储对存储技术提出了新的要求。[8]而且,由跨界服务的特点可以知道,图书馆作为数据中心,数据结构多样、存储环境复杂、数据增长快、非结构化数据量大,存储技术还不够成熟,同时还要满足实时性、可靠性和可扩展性等要求,对数据存储结构的兼容性提出了新的挑战。另外,跨界服务合作组织具有众多成员机构,不同机构有可能使用的是不同厂商的不同信息系统、采用的是异构的数据保护方案,当系统进行扩展时,无法利用现有资源而造成资源浪费,现有图书馆信息资源跨界服务是否对此兼容,也是异构存储管理难题。
3.6数据存储容灾需求
图书馆数据中心有大量的数字信息需要存储,服务系统和设备一旦遭受自然灾害、人为误操作、病毒感染、设备故障、黑客入侵等破坏,出现数据损失的代价往往是极其高昂的。图书馆须为恢复数字资源和计算机系统采取技术上和设备上的保护,以确保系统的正常运行和服务顺利提供。在以图书馆数据中心为核心的跨界存储环境中,不同层次的服务器所需的保护层级是不同的。通常普通服务器所需容灾只要进行定期备份即可满足,部分关键服务器则需要实时备份保护,而最核心层服务器则需要应用容灾级的全面防护。这些服务器又往往会涉及不同的系统平台和数据结构,这就需要构建一个全面的、完整的保护策略,在面对跨界数据服务整体时要有统一性,在面对不同业务系统、不同业务层级时要有差异性和针对性。[9]因此,这对图书馆提供跨界服务数据存储的容灾能力就有了很高的要求。
4 大数据环境下的信息安全对策
针对以上指出的信息安全问题和信息安全目标,图书馆应做好对信息资源共享和服务提供环境的防御保护、实时保护和传播保护的安全基本保障。据此,本文提出以下具体解决对策。
4.1知识产权保护对策
对于大数据背景下知识产权的保护,图书馆的信息资源存储中心需要根据云计算的相关协议和标准,制定跨界合作组织内部运用云计算应遵循的准则和规范。同时,对提供云计算服务的企业进行评估及考核,细致地了解该企业提供产品的技术安全性能以及可持续使用情况,确保跨界合作组织使用标准化规范化的云计算体系,并且对其采取相关的访问控制管理也是必要的。更重要的是,国家相关部门应尽快完善与新技术相适应的法律制度,才能平衡云服务提供商与图书馆、著作权人以及用户之间的利益关系,避免云服务供应商利用图书馆丰富的馆藏资源,导致资源的网络传播,侵害到著作权人的相关权益。
另外,信息加密、数字签名、单向Hash函数、数字证书、水印防伪技术、安全容器技术、移动A-gent技术等手段能够在一定程度上为打击侵权行为提供有效防护。信息加密主要针对数据传送过程,使得信息的传输安全可靠,以免被未授权人员获取,更具体的技术与下文的数据保护、访问控制重合。数字水印技术和数字指纹技术是在原始数据资源中嵌入有效的、不易察觉的并且不易破坏的产权标识,为打击侵权行为提供有力证据。安全容器技术以InterTrust公司的DigiBox技术和IBM公司的Cryptolope技术[10]为代表,通过封装加密,对数据进行保护。
4.2数据保护对策
在万物互联的时代,图书馆跨界服务的信息安全防护主要依托于积极主动防御。对于跨界服务这样一个动态而又稳定的系统,加上以APT为典型代表的新型威胁和攻击的不断增长,传统的、静态的、单点的防御体系已经无法满足新环境下的信息安全防护需求。需要通过利用大数据的手段结合现代网络安全技术,比如添加大型的通用日志服务、能作实时关联的引擎和针对合作组织中各个用户的定制分析平台,对数据的记录、存储进行分析,主动发现异常和潜藏着的威胁,实现威胁与入侵的快速检测、快速发现和及时响应。
在大数据背景下,图书馆跨界服务数据存储更多地依托于“云”。在“云”这种完全虚拟的环境中,同一台物理机上可能连接着成百上千台虚拟机,虚拟机之间是通过虚拟交换机来传输信息的,使用的是虚拟机管理器。因此,基于“云计算”和虚拟技术的“云安全”近几年被很多企业和机构极力推崇。
IBM新兴技术总监David Barnes对于如何加强云环境安全,提出了其云安全模型“三大要素”的创新概念:细粒度上下文安全(Fine-grained Context Security)、溯源(Provenance)和蜜罐(Honey Pot)。① 确保细粒度上下文安全是为了发现异常行为,方法包括深度自省、前瞻探测以及为系统、工作和人员构建行为模型。在高度虚拟的云环境中,对系统、工作负荷和人员的行为模式很容易进行总结,因此这样做可以尽早减小攻击造成的影响。② 溯源。为确保完全暴露在云环境中的数据和进程的安全,需要寻求某种手段来对数据进行验证并自动生成记录,以及自动追踪所有进程的起源。通过溯源可以告知我们整个过程:谁(Who)在什么时间(When)以什么目的(Why)对数据进行了什么操作(What)。③ 蜜罐是用来检测非常规和新型黑客的诱饵,蜜罐检测可以帮助尽早发现试图入侵系统的恶意软件。因此,这就需要设置高度虚拟化的环境,每个环境都采用不同的配置和不同的系统参数,将真正的操作环境与诱饵隔离开来,引诱隐藏的恶意软件,使其自动激活和暴露。这一切都通过不同于传统数据中心的云端虚拟化实现,它允许设置引诱环境,并将其置于关键的云计算机之外。凭借这一特点,在恶意软件入侵系统前,就可以将其检测到并进行隔离。[11]图书馆可以参考David的“三大要素”,探索出基于“云”的能够诱发攻击环境、减小攻击影响,携带数据追踪技术数据保护系统,打造出比传统信息存储环境还要安全的云环境。
4.3数据存储对策
(1)兼容。图书馆跨界服务可以通过构建分布式存储系统来面对海量数据存储的需求和挑战。非结构化数据库NoSQL(Not Only SQL)克服了传统结构化数据库的缺点,支持多样化的数据结构和分布式存储,许多大型企业都会采取这种NoSQL数据库。比如Google开发的 BigTable,Amazon推出的 Dynamo,Facebook研发的 Cassandra,新浪微博使用的 Redistribute,豆瓣网提出的BeansDB。这类系统成本低廉,对硬件设备要求不高,非常适合图书馆跨界服务使用。另外,基于图书馆跨界服务中存在不同系统的对接以及各种存储设备,另一种可以使用的分布式存储方式是基于云计算发展的云存储。云存储通过专门的应用软件将不同的存储设备集合起来协同工作,使图书馆整合目前已有的存储设备、满足爆炸式增长的存储需求、降低管理成本和复杂度,以实现数字资源的稳定存储和长期可用。目前,国内主要的云服务提供商有:国内最大的公共云计算服务提供商阿里云,国内虚拟化与云计算产品及服务的开拓者红山,具有自主知识产权的华为FusionSphere云平台。这些云服务提供商已经在政府、企业、医疗、教育等领域实现了众多成功案例,图书馆跨界服务也可以使用类似的云计算解决方案,还可以通过混搭平台 (MS Drupal-Mashup)的方式解决资源整合问题。新一代的MS Drupal-Mashup平台采用基于 Drupal及其扩展模块、API接口和混搭技术,实现根据平台建设需求将独立于各云端的数字资源与图书馆现有资源相互整合。西安交通大学图书馆就是使用这一平台将图书馆内不同系统间信息资源共享融合。[12]
(2)容灾。对以图书馆为数据核心的跨界服务合作组织这个复杂的综合体来说,对系统中的数据或应用做好备份容灾是十分必要和重要的。备份的实时性、充分性和分布式的程度影响着系统的容灾能力,同时其采购及管理运营成本也因此而不同。因此,图书馆可以依据自身特点,选择合适的容灾系统。这样的容灾系统可以从以下几个方面着手考虑。① 支持多系统平台的兼容以及主流数据库的备份和恢复,同时还要提供更全面的虚拟化平台保护。② 异地容灾。图书馆跨界服务可以将本地的实时数据备份到异地服务器中,或者将本地备份数据复制至云服务商,通过异地的备份进行远程恢复数据,从而提高抵抗各种可能的安全因素的容灾能力。核心业务要确保业务连续,首先保证本地高可用性,另外还要有异地容灾;③ 采用实时备份和细粒度恢复技术,提供高的备份效率和恢复效率,常用的技术如存储快照和CDP (Continuous Data Protection)持续数据保护技术(支持异构存储,可以实现在故障发生瞬间恢复到任何时间点)。④ 核心数据的备份副本最好能够接管访问。同时,图书馆可以通过使用多家运营商网络通道连接,允许在某一段线路中断时,立刻切换到其他运营商的线路上,从而不会影响到对用户的服务。同样重要的是,图书馆应该根据实际情况,定期进行灾备演练以检验数据副本回复和容灾系统的有效性。湖南省图书馆就是采用上海爱数软件有限公司的一体化容灾系统,实现了对虚拟平台的集中保护。[13]
4.4访问控制对策
尽管大多数云计算服务提供商都通过使用加密技术来保护用户数据,但也只能实现数据在网络传输中是加密的,数据在使用、存储和传播时仍然缺乏妥善的保护。在图书馆跨界服务中,可以将RMS权限管理扩展到各分享站点。只有被分配了相关权限的合作成员或者部门才能对有关数据进行与分配权限相对应的操作。这样就可以做到无论数据是在机构内部还是外部,无论数据是处在传输中,还是存储状态甚至是使用中,都始终受到权限的保护,提供端到端持久的信息安全防护。在组织内部,还可以使用精细化的IP-guard加密系统,对核心机密进行全面而细致的保护,实现不同机构成员、不同部门甚至不同用户之间的深度保密。另外一种技术,数据丢失防护(Data Loss Prevention,DLP)可以帮助图书馆数据管理中心深入检查数据内容,实现数据定位和定级,了解数据的使用情况,跨端点、网络和存储系统自动地保护数据。这种技术不仅能做到对信息的加密保护,还可以识别风险,防止内部成员或部门对数据和信息资产被有意或无意流出。[14]
[参考文献]
[1]大数据时代的意义和特征[EB/OL].[2015-07-08].http://blog.sina.com.cn/s/blog_60bbe6a50101jjct. html.
[2]张波,等.跨边界信息资源共享及其在企业创业过程中的作用分析[J].情报杂志,2014,33 (11):182.
[3]刘细文,熊瑞.图书馆跨界服务的内涵、模式和实践[J].中国图书馆学报,2008(34):33-34.
[4]黄长著,等.网络环境下图书情报学科与实践的发展趋势[M].北京:社会科学文献出版社,2010:56-60.
[5]数字图书馆迎大数据时代:将整合资源提供深度服务[EB/OL].[2015-08-27].http://culture.people.com.cn/n/2014/1105/c172318-25981395.html.
[6]OCLC Announces Strategy to Move Library Management ServicesWebScale[EB/OL].[2015-08-28].http: //www.oclc.org/news/releases/200927.html
[7]王于丁,等.云计算访问控制技术研究综述[J].软件学报,2015(26):1129-1150.
[8]中恒华瑞大数据存储系统简介[EB/OL].[2015-07-25].http://www.sinohuarui.com/Detail.aspx?id= 122.
[9]爱数软件.通往大数据时代的备份变革——深入爱数一体化容灾产品 [J].软件产业与工程,2013(21):22-23.
[10]庄超,等.网络内容安全分发与版权保护技术[J].计算机工程,2000(26):50-52.
[11]IBM混合云[EB/OL].[2015-07-25].http:// www.ibm.com/cloud-computing/cn/zh/landing/hybrid. html.
[12]李丹,等.Drupal的混搭技术在图书馆的应用[J].现代图书情报技术,2013(10):79-84.
[13]爱数助力湖南省图书馆实现虚拟平台集中保护[2015-08-15].[EB/OL].http://www.eisoo.com/ cn/case/casedetail.php?type=jgtsg&id=975?.
[14]孙继银,等.网络窃密、监听及防泄密技术[M].西安:西安电子科技大学出版社,2011:241.
中图分类号:G203
文献标志码:A
文章编号:1005-8214(2016)06-0099-05
[作者简介]王彤(1991-),女,山西大学经济与管理学院图书馆学硕士研究生,研究方向:信息生态。
[收稿日期]2015-11-28[责任编辑]李金瓯
Issues and Countermeasures on Information Security Technology of Cross-boundary Service of Library in the Age of Big Data
Wang Tong
Abstract:The cross-boundary service of library,which well does great good to the construction of information resources and the transformation of library service mode,brings lots of security technology issues in the new information environment as well.To solve these issues is a matter of great urgency.This article points out possible problems in the process of cross-boundary library service for library including intellectual property protection,privacy protection,viruses and attacks,the compatibility and disaster tolerance of data storage.This article presents a series related countermeasures as well.
Keywords:Cross-boundary Service of Library;Big Data;Information Security;Technical Issues;Countermeasures