大数据对高校档案工作的影响分析及对策研究
2015-01-02宁燕子
宁燕子
(辽宁师范大学档案馆,辽宁 大连 116029)
大数据时代的到来改变了传统的IT架构与数据存储和利用机构,必然也将对作为储存信息知识、提供信息服务的高校档案馆形成冲击与挑战。因此,深刻理解大数据的内涵,结合高校档案信息资源的特点,分析大数据对档案工作者理念的影响、对档案信息资源建设、档案信息安全及档案利用服务的影响,对高校档案馆面对大数据寻求应对与发展对策有着重要意义。
1 大数据概述
近年来,随着互联网、物联网、云计算等技术的深入发展,以及智能终端、社交网络、数字地球等信息体的普及和建设,海量的结构化和非结构化数据己经充斥在人们日常生活的每个角落,并且每天还在以惊人的速度进行爆炸式的增长。美国互联网数据中心(IDC)指出,全球数据量已由2005年的0.15ZB增长到2010年的1.2ZB。预计未来10年,全球数据量将以40%+的速度增长,2020年全球数据量将达到35ZB,人类正在逐渐步入一个大数据时代。
1.1 大数据定义
目前,大数据并没有形成一个统一的定义。研究机构Gartner的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。IDC将大数据定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。信息专家涂子沛在著作《大数据》中认为:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。从以上几种定义,我们可以看出,大数据是信息时代出现的一种现象,一种理念,一种处理技术。
1.2 大数据特征
和大数据的定义不同,对大数据的特点业界有比较统一的认识。即大数据的4“V”特征。第一,数据体量巨大(Volume)。从TB级别,跃升到PB级别。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。第二,数据类型繁多(Variety)。随着传感器种类的增多以及智能设备、社交网络等的流行,数据类型也变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、E-mail、文档等形式存在的未加工的、半结构化的和非结构化的数据。第三,价值密度低(Value)。数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长,反而使我们获取有用信息的难度加大。以视频为例,连续的监控过程,可能有用的数据仅有一两秒。第四,流动速度快(Velocity)。形成流式数据是大数据的重要特征,数据流动的速度快到难以用传统的系统去处理。大数据的“4V”特征表明其不仅仅是数据海量,对于大数据的分析将更加复杂、更追求速度、更注重实效。
2 高校档案信息资源呈现的特点分析
2.1 档案数量庞大,增长迅速
辽宁师范大学是一所省属重点师范类院校,学校全日制在校生人数规模在22000人左右,在职教职工人数约为1800人。以辽宁师范大学为例,学校档案馆馆藏档案总量是66286卷 (件),其中综合档案41913卷。近4年,综合档案年入馆量以平均每年12.5%速度增长。截至2013年6月21日,全国普通高等学校(不含独立学院)共计2198所。各高校档案馆档案资源总和近亿卷,堪称海量。2011-2014年,辽宁师范大学综合档案入馆数量统计结果见表1。
表1 2011-2014年,辽宁师范大学综合档案入馆数量统计表
2.2 档案种类繁多,载体类型多样
高校档案是高等院校内部组织和个人在教学、科研、管理以及其它各项活动中直接形成的、对高校和社会有保存价值的文字、图表、声像等不同记录方式和各种载体形态的历史记录。高校档案具有形成主体多样性,形成领域广泛性的特点,因此形成了高校档案信息资源种类繁多、载体记录方式和载体形态多样性的局面。如,辽宁师范大学档案馆集中统一保管12类档案:党群类、行政类、教学类、科研类、基本建设类、出版物类、外事类、财会类、声像类、实物类、教职工人事类和学生类。高校档案的载体类型多样,除传统的纸张外,还有以感光材料为载体的档案,如缩微档案;以磁性材料为载体的档案,如录音带、录像带、幻灯片等;以磁、光、电为介质,通过计算机等设备阅读的档案,如,电子文档、光盘数据库等;以数据库和网络为基础,以计算机主机硬盘、光盘为介质的档案,如网络信息、网站、网页等。
2.3 档案数据资源丰富。
近年来,随着高校校园信息化工作的推进,高校在档案信息化工作方面的投入也在不断加大,数字档案馆就是档案信息化的成果之一。档案信息化的一个基础工作是档案信息资源的数字化,即馆藏档案目录数字化,馆藏档案全文数字化,电子文档收集。据统计截止2010年10月15日,上海交通大学档案馆馆藏档案全文数字化总量为3667404页,数字化信息资源约为2PB。一所高校的档案数据资源已经达到PB级别。可想而知,全国2000多所高校的档案数据资源总量相当可观,内容相当丰富。
3 大数据给高校档案工作带来的影响
3.1 大数据对高校档案工作者理念的影响
大数据带给档案工作的最大影响是对档案工作者思维理念的冲击。维克托·迈尔·舍恩伯格在《大数据时代》中明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。传统的逻辑性思维,考虑的是因为什么,所以必须怎样,即由因到果的关系。而大数据思维只需要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。大数据时代的到来,将从多个方面变革传统的档案思维模式。管理思维上,将推动档案馆从经验驱动到循数管理的转变,用数据说话;服务思维上,档案馆的服务理念将实现从供给导向到需求导向的转变,实现从资源密集型服务到服务主导型的转变;业务思维上,从追寻“因果律”走向审视“相关性”,从出现问题——逻辑分析——找出因果关系——提出解决方案的逆向思维模式,到收集数据——量化分析——找出相互关系——提出优化方案的正向思维模式转变。
3.2 大数据对档案信息资源建设的影响
迫于物质和技术条件限制,在小数据时代我们无法对产生的所有成果(档案)全部归档和保存,因而有必要制定一个归档范围,即确定哪些要归档保存,哪些不需要归档保存;同时对归档保存的信息和数据要根据其价值确定不同的保管期限以节省人力和物力资源。近20年来,随着移动互联网、云计算、物联网等新兴技术的蓬勃发展和广泛应用,以及各种传感器的无所不在,信息技术已经可以将一切“数据化”。在过去的50年中,数字存储成本大约每两年就削减一半,而存储密度则增加了5000万倍。在大数据背景下,“一切归档”的目标已经具备了较为成熟的技术条件和物质基础。大数据时代,档案概念呈泛化趋势,“每一条记录都将变成具有长期保存价值的档案,这些单位价值密度低的记录信息将作为不可分割的整体来发挥档案的价值”。“一切具有保存价值的文件、数据、视频、实物都将视为档案,基于信息系统的电子文件在形成之后‘一秒钟’即形成‘电子档案’”。
3.3 大数据对档案信息安全的影响
数据安全的问题一直是信息安全的重要内容,信息安全业界对于数据安全的探讨从来没有减少过,大数据时代的到来让业内人士更加不确定。据报道,对全球200个安全权威专家调查表明:40%的专家无法处理所收集到的海量安全数据;35%的专家没有足够的时间或专业人员来分析他们收集的安全数据和信息。这些数字也更能直观地说明在大数据时代,安全面临的挑战十分严峻。EMC信息安全事业部RSA公司的信息安全专家胡军认为,安全是一个基础的问题,数据价值越大,数据的量越大,安全面临的风险就越大。大数据是信息化发展到一定阶段的必然结果,大数据时代档案信息资源的一个基本特征就是档案信息的大规模数字化。数字化档案信息具有以下特点:(1)对软硬件系统的依赖性。技术的更新、软硬件设备的升级可能会导致原有的信息无法识别。(2)存储的高密度性。数字化档案信息存储的高密度性在我们节约馆藏空间,扩大馆藏容量的同时,也对载体的保护提出了更严格的要求,因为任何一条轻微的划痕都有可能导致数以千计的档案信息遭到破坏。(3)信息与载体之间的可分离性。数字化档案信息可以以非实体形式进行加工和管理,这种可分离性造成了数字化档案信息的易于更改、易于复制、自由流动、易于传输。
3.4 大数据对档案利用服务的影响
《大数据时代》的作者维克托·迈尔·舍恩伯格认为,“大量的数据能够让传统行业更好地了解客户需求,提供个性化的服务。定制化服务的关键是数据”。大数据时代,高校档案服务方式将发生变革,档案利用效率将大幅提升。大数据时代的档案利用不同于传统的“你来我找”的被动式服务,也不仅是利用现代信息技术进行制作、加工、传播、转换和二次开发。而是要通过对档案信息资源挖掘、用户信息和用户需求进行分析、关系洞察及趋势预测,开展基于海量档案数据和先进技术分析的全息档案资源的相关性研究,从而实现档案信息资源与用户需求的双向理想控制。大数据时代高校档案馆会更多地开展主动推介式个性化服务。
4 大数据时代高校档案工作的对策
4.1 树立全归档意识
所谓全归档,包括三个方面的含义,一是接收,做到应收尽收。高校档案的收集范围应该涵盖管理、教学、科研、教辅、后勤保障等所有校内单位。内容上要注意公文与业务材料并重,不可偏颇。档案类型上既要做到传统的纸质档案与电子文档并存,同时兼顾图片、录音、录像、实物、数据库、多媒体、网页等多种类型。档案的“收”要做到全流程控制,将档案管理融入到学校办公自动化系统、教学管理、行政管理、学生管理等系统中,将文件、数据归档流程写入发文环节、教学环节、管理环节等,抓好文档的前端控制。二是征集,做到用开放的心态面向全社会征集一切和学校相关的史料和实物。重点征集对象为学校老领导、老教授,学校知名校友。三是采集,采集网络信息资源和用户需求信息。高校的内部机构都建设有自己的门户网站,这些网站上发布了大量的教学、科研、管理、对外交流等形式多样的信息资源,高校档案馆要积极主动采集有保存价值的信息。另外高校档案馆还要采集用户基本信息和用户需求信息,以备对其进行分析,从而提供个性化服务。在大数据背景下传统的档案资源建设思想发生不小的变化,即我们已经不再需要确定一个归档范围,不再需要对其价值进行人为的鉴定和加注标签。我们所要做的就是将所有的真实的记录全部归档,减少人为的影响,保存档案的原貌,还原档案的真实,从而构建一个基于互联网的,以档案数字资源为主体,以文本、图片、音视频等为形式的高校记忆数字资源库。
4.2 构建档案信息资源大数据集
档案数字化是大数据时代必要的基础性建设,也是发挥高校档案馆潜在价值的重要台阶,紧抓大数据战略的契机,实现档案数字化建设跨越式发展,对高校档案馆而言,具有重要意义。具体需要做以下工作:结合高校档案资源特点和工作实际,(1)研究制定高校档案馆馆藏档案数字化实施方案,全面启动档案数字化工作;(2)研究制定高校档案馆数字化建设实施方案,启动数字档案馆建设;(3)研究制定高校档案馆纸质档案数字化的规范和标准;(4)研究制定高校电子文档移交与接收办法;(5)运用云技术创建档案大数据基础架构,让档案大数据在这个平台上运行;(6)运用云技术构建高校档案信息资源的大数据集。
4.3 建设档案信息安全体系
大数据时代,高校档案馆的数字化馆藏和虚拟馆藏的比例会大大提高,档案安全管理的重心要向数字化馆藏和虚拟馆藏方向倾斜。要确保数字化档案信息内容的真实性、完整性、机密性和长期可用性。高校档案馆必须建立健全人防、物防、技防三位一体的档案信息安全防范体系。具体的安全保障措施包括以下几个方面:(1)加大对数字化档案信息安全法规的理论研究;(2)制定高校数字化档案信息安全解决方案;(3)购买优质的硬件设备并在运行过程中加强管理和维护,确保科学使用;(4)采用先进的网络安全技术和数据安全技术等多种现代信息新技术。如访问控制技术、防治病毒技术和安全检测技术、密码技术、备份技术、仿真、迁移、再生性技术、签署技术、消息认证技术、防写技术以及数字水印技术等;(5)使用正版软件,增强安全意识并做到及时升级,及时打补丁,同时检查系统的各项设置;(6)数据结构化;(7)加固网络层端点的数据安全;(8)档案信息数据库异地存储;(9)提高档案从业人员的信息素养和职业道德意识。
4.4 挖掘档案信息大资源,推行个性化定制化档案信息服务
高校档案馆拥有海量的档案数据,同时掌握了丰富的传统信息资源管理经验,是大数据时代的“资本拥有者”,然而这些数据目前只有极少部分得到了有效开发。如何从海量原始档案数据中发掘出有价值的信息和知识,满足不同档案用户的信息需求,将成为高校档案馆的一项重要工作。高校档案馆要综合运用数据挖掘、数理统计、机器学习、智能算法及云计算技术对档案信息数据进行分析。具体流程如下:(1)制定针对不同服务对象和服务需求的服务目标;(2)采集用户基本信息和用户利用习惯信息,分析用户检索行为,建立用户信息库;(3)依据用户潜在的档案信息需求分析结果,检索馆藏档案资源信息及网络信息数据;(4)运用数据分析技术在智能数据处理平台上对检索出的数据进行过滤、整合、分析;(5)利用数据可视化技术和人机交互技术,对档案信息数据进行解释,借助高校档案门户网站、移动终端等多种手段发布档案信息。
[1]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报,2014(6):954-972.
[2]中国教育部批准的高等学校名单、新批准的学校名单[OL].http://www.moe.gov.cn/publicfiles/business/htmlfiles/moe/moe_229/201306/153565.html.
[3][英]维克托·迈尔·舍恩伯格,肯尼思.库克耶.大数据时代[M].浙江人民出版社,2013(1).
[4]周枫.资源.技术.思维:大数据时代档案馆的三维诠释[J].档案学研究,2013(6):61-64.