APP下载

大数据云计算对电子文件的影响

2016-02-04许济沧

云南档案 2016年1期
关键词:计算环境

■许济沧

大数据云计算对电子文件的影响

■许济沧

本文主要分析了大数据环境对电子文件前端控制、归档存储和数据挖掘等方面产生的巨大影响,阐述了云计算在大数据环境解决电子文件集成和安全保存方面发挥的作用,并运用SWOT分析法,揭示了新技术在电子文件领域运用的利弊和产生的影响。

大数据云计算电子文件

一、大数据

大数据的定义十分多样,总结国内外一些经典的理论,如维克托·迈尔-舍恩伯格及肯尼斯·库克耶的“4V”理论,“大数据”(Big data)研究机构Gartner的信息资产论,从内涵上来说大数据是建立在对大规模、多样且真实数据的实时处理基础上的用以洞察、预测、决策的信息资源。从外延上来说,大数据包含了超过传统工具和流程分析和处理能力的数据。这些大数据产生的行业分别来自于计算机软硬件及计算机应用、档案及博物馆、医药卫生及健康领域、工业、企业经济、教育理论与教育管理、图书情报与数字图书馆。根据对“知网期刊数据库”的检索分析,采用检索式:SU=(‘大数据'+‘云计算')*‘电子文件',这几个领域与大数据相关的论文数量占所有比例的85%。

(一)对电子文件形成的影响

由于大数据的分析是建立在“样本等于总体”的基础上的,没有海量的数据作为支撑是无法发掘电子文件、电子文档、电子档案的价值的。当今,图、情、档领域的数据主要来自于档案、文档数字化和电子文件的前端控制两方面。面对强大的需求,数字化工作固然刻不容缓,但是更为重要和主要的还是注重强化电子文件工作的前端控制。要站在电子文件生命周期的宏观层面上设计并完善管理系统,在文件的制作、传递、收集流程中加强电子文件的质量控制,从而保障电子文件的价值。如近年来,国家电网公司各项经营管理过程实现了数字化管理,将电子文件的元数据、背景信息、关联信息和办理信息等捕获到电子文件管理系统,在电子文件管理系统中实现对电子文件的全程管理。

(二)对电子文件归档存储的影响

1.在归档规范方面

在大数据环境下,电子文件的数量急剧膨胀,归档过程中鉴定工作遇到了极大的阻力,这使得电子文件的鉴定由逐份鉴定成为了对电子文件形成机构的鉴定与认证。对电子文件的分类与知识因子的提取也由原来的人工著录元数据,变为大数据工具和软件自动批处理。对于电子文件的编号也做出了相应的调整,但是目前还不是很标准和规范。张勇提出一种新档号编码方式:

编码结构:全宗号——类型——归档年度——文件号

文件存储结构:\全宗号类型归档年度文件号文档流水号.文件类型|原始文件

当然,由于现如今存储的高密度化,部分单位采取了取消卷宗编号的方式,而以GB为单位分类和整理非现行的电子文件。

总之,目前受大数据环境影响,电子文件归档过程中的规范发生了一些变化、创新,但仍需不断完善。这项工作与电子文件的前端控制密不可分,在大数据环境下,只有企业、工程项目、科创系统形成电子文件的规范与以上种种变化相适应、相互调整,才能达到系统效应。

2.在存储方式方面

大数据时代,数据不仅庞大,而且格式类型多样,如北京市档案馆接收的原生电子文件格式就有20-30种,这给电子文件的存储工作带来了巨大影响,其中影响最大的就是数据库结构的改变。大量的电子文件以非结构化的形式出现,传统的关系型数据库已经无法满足存储的需求。现在SQL数据库已经针对电子文件领域推出了基于对象的存储架构,使得大量的数据流、图像、空间数据得到有效存储。

3.对非现行电子文件挖掘的影响

大数据主要的理念是“通过分析现有的,找到相关性,从而预测未来的。”海量的电子文件如果石沉大海,不能为政府、企业、个人的决策提供参考的话,将失去存储保留的价值。大数据时代改变了电子文件被动利用的局面。电子文件拥有者通过调查需求,建立数据模型,聚类、分类,相关性分析,提出决策方案等过程,将半现行和非现行电子文件的价值发掘出来,满足各类使用者的利用需求。如北京市政府外事办从2010年开始做信息化的顶层设计,将隐形知识转化为显性知识,较好预测了国际油价的走势。

二、云计算

如果说大数据给电子文件带来的影响更多是产生诸多亟待解决的问题,那么云计算更多是从技术层面提出如何解决这些问题的方法。云计算分为三种,硬件即服务、应用即服务、平台即服务。云技术将海量电子文件以低廉的成本储存在云端,整合网络范围内的资源向图、情、档工作者提供高效的办公工具,如果用户不满意还可以采用租用云平台的方式开发出与电子文件工作相适应的云软件。

(一)解决的问题

1.方便电子文件的共享与集成

过去,常常是由档案部门着手收集整理电子文件,工作量大,硬件投资成本高,也不易于电子文件的集成、开发利用。但是云存储技术解决了这样的问题,例如国家档案局正在着手构建“中国档案云”,将囊括国内50家以上的重要档案馆。在中心平台进行集成,形成目录数据和各数据访问路径。对于有困难的档案馆,可以先离线存储,报目录文件与中心平台的其他目录合成。

2.提升电子文件保存的安全性

云计算最大的特点就是可以进行自动备份。由于用户资源不是存储在本地或某一台服务器上,而是经过高度虚拟化之后分布式存储在云端。所以在云端始终保留了多个电子文件的副本。当发生自然灾害或硬件损坏时能够有效实现异地备份的功用,这极大地提高了电子文件建设的安全性。

(二)带来的挑战

这主要集中在了真实性、完整性和可靠性上。电子文件存储在云端上难免会产生迁移,这在资源的整合时尤为突出。数据迁移时元数据产生的变化对文件的真实性产生巨大的影响。同时云计算环境中,电子文件以64MB被分块处理,分布式存储在不同服务器中,迁移过程中要保障数据的完整和一致。在云计算环境下私有云、公有云混合,文件的保密性大大降低,另外,云平台也面临着病毒的攻击,文件的安全可靠需要保障。如何有效处理这样的问题是云计算带来的重大挑战。

(三)SWOT分析

云环境对电子文件带来的影响:

优势:在于降低了基础设施的投资运行成本,方便了电子文件的集成和利用;

劣势:在于文件的控制权模糊,保障电子文件的真实、可靠还缺乏相关法规的约束;

机会:在于大数据为云计算的开发利用,提供了很好的契机,人类迫不及待想使用和开发沉淀的信息资源;

威胁:在于云计算依赖的网络和服务器易于受到病毒的攻击,存在着比较大的安全隐患。行业内的标准也有待整合、统一。

总之,云计算在大数据环境下产生,二者密不可分,与物联网并称当今信息世界的新兴技术。两者对电子文件的全过程产生了巨大的影响。这种变化虽然带来了挑战,但是笔者坚信,电子文件领域始终应该和信息技术的发展同呼吸、共命运。相信在新技术的引导下,电子文件领域会更加智能、更加规范。

[1]余洋.大数据时代背景下电子文件归档的重要性及归档措施研究[J].商场现代化,2014,33:129.

[2]殷志敏.云计算时代市政档案管理概述[J].科教文汇(中旬刊),2015,03:191-192.

[3]刘晓光.电子文件归档光盘的选择与保存[J].中国档案,2009,12:52-53.

[4]石峻峰,樊泽恒,毕建新.云计算环境下高校电子文件一体化管理研究[J].图书情报工作,2014,04:35-39.

[5]毕建新,郑建明.云计算环境下电子文件一体化管理初探[J].档案与建设,2014,04:15-18+33.

[6]本刊评论员.档案大数据:机遇与挑战并存[J].档案时空,2014,06:1.

[7]积极适应主动引领开启档案管理大数据时代[J].山东档案,2014,01:1.

[8]王玉龙.云计算环境下电子文件管理问题的思考[J].北京档案,2012,02:21-23.

[9]孙靖靖,金丹,冯瑜.云计算模式下电子文件中心安全问题探讨[J].兰台世界,2012,17:51-52.

[10]薛四新.云计算环境下电子文件管理的实现机理[J].档案学通讯,2013,03:65-66.

作者单位:中国人民大学信息资源管理学院

猜你喜欢

计算环境
云计算环境下船舶无线通信网络入侵检测方法
云计算环境下网络安全等级保护的实现途径
云计算环境下的信息安全风险评估
基于LabWindows的云计算环境安全框架研究
云计算环境下动态数据聚集算法研究
分布式计算环境下网络数据加密技术研究
大数据云计算环境下的数据安全
美国海军全舰计算环境发展及关键技术
云计算中的主动安全防御体系构建
云计算环境下电子书包教育应用创新研究