基于大数据处理方法的档案价值开发研究
2021-12-31汪前珍
汪前珍
(广西民族大学 图书馆,广西 南宁 530006)
档案对人类活动进行了客观的记录,具有原始的证据价值。然而,当前档案的存储模式及管理限制,档案的价值没有得到充分的开发和利用。大数据概念的提出以及大数据处理非规范的、海量的数据的方法,为档案价值的开发提供了新的思路和新的方法。
1 大数据及大数据处理
1.1 概念及特点
关于大数据定义,不同研究主体的研究背景和研究目的不同,对于大数据概念的描述存在差异,目前学术界尚未形成比较一致的定义,但对大数据有比较认同的几种特征[1]。
体量巨大(Volume):以前用海量数据即大海的博深浩大来描述数据的体量巨大,大数据则是在数据的体量方面比海量数据更为巨大,如果用空间来描述其体量,可以形容为宇宙级的数据,浩瀚无边的数据。在大数据的集合里,任何我们想象到的信息都有可能找到。
类型繁多(Variety):包含所有的数据类型,结构化和非结构化数据,文字、图像、视频、音频。
产生速度快(Velocity):数据的产生速度快,数据量呈指数级的速度增长。
价值密度低(Value):单位数据里包含的有价值信息非常稀少,就像砂金矿,品位很低。
1.2 大数据处理
通常,人们认为数据处理就是数据的统计、分析。21世纪互联网及计算机技术的飞速发展,引发了数据规模的爆发式增长,各行各业都引入数据分析和数据统计,重视和应用大数据必将给我们的生活带来深刻的变革,大数据及大数据处理将扮演越发举足轻重的作用。所谓大数据处理,应该包含两个方面,即大数据的处理方法和处理能力。
然而,学术界常常将大数据和大数据的数据处理方法等同或混合起来。从严格意义上讲,大数据指的是客观对象,就是具有上述特征的数据;而大数据的处理则更强调的是对浩大的数据体量和复杂的数据类型的高效的处理方法和高速的处理能力,而从中提取有价值信息的能力。
2 档案和大数据的关系
2.1 从档案数据分析
已有研究表明,从大数据的特征和大数据挖掘来看,档案数据与之不符[2]。石刻档案、甲骨档案、纸质档案、缩微档案以及特殊档案如邮票、商标、书稿、字画、碑帖、照片、实物等[3]不同形式的档案,只要转化为计算机能够处理的电子形式,就是计算机科学里的数据。只要是电子数据,都是大数据的数据来源,就像小河是江海的水源来源,档案数据自然是大数据的来源了。
2.2 从档案体量分析
从体量来看,档案数据的体量远远小于大数据所要求的体量,充其量只是沧海一粟;从产生速度来看,档案数据主要来源于上述各种形式档案的转变以及新生成的电子档案,相比于互联网上数据的产生速度,档案数据的产生速度完全不是一个数量级的;从价值密度来看,档案数据都是对事实的描述、记载,真实可靠,可以说是数据领域的原生金矿,含金量极高,而大数据可以说是沙金矿里的贫矿,含金量极低,只有通过特殊的手段,才能提取到有价值的信息。
因此,从大数据的4个特征看,档案数据从体量、产生速度、价值密度几方面都不符合,从这个意义上看档案数据与大数据是2个内涵不同的概念。
3 阻碍档案价值开发的因素
3.1 档案的保存模式及阻碍
目前,档案主体仍是纸质档案,电子档案所占比例不高[2]。而大数据处理方法要求档案资料必须转化为电子数据,且能够流通,才可通过互联网上不同地理位置的大型计算机分工协作,其采用独有数据采集处理方法,如爬虫程序实现数据采集、清洗,应用分布式文件系统存储数据,构建大数据分析模型及模型检验方法和优化方法[4],否则无法发挥其强大的数据采集、存储、分析能力,其优势也无法体现。
因此,纸质为主的档案资料存储现状,决定了只能用传统的人工、手工的方式来挖掘档案的价值,而无法利用计算机互联网工具以及大数据处理分析方法更深层次、更快捷、更大范围的挖掘档案的价值。
3.2 档案的管理特点及阻碍
“确保‘档案安全’一直是档案工作的主旋律”[5]。《档案馆通则》第二十一条规定“利用者查阅、摘录或复制档案,必须持本单位的正式介绍信,注明利用者的身份和利用档案的目的与范围。大量利用档案进行专题研究,必须事先将上级批准的研究计划抄送有关档案馆”,显然,当前的档案管理理念、档案管理规定都是趋向于“保护、保密、保守”[5]。对档案利用者施加了过多的限制、约束条款,大大减少了档案利用者的范围及人数,降低了档案的使用频率、使用效率。这些规定也限制了计算机互联网工具、大数据处理方法的使用,现在几乎是不可能使用大数据处理方法来处理,档案资料的价值自然难以得到应有的挖掘和利用。
许多研究成果也表明,法律体系不完善、国家保密范围设定与解密制度的严格规定、鉴定机构设置不合理、档案资料开放的意识不够普及等,严重影响了档案资料的开放、开发和利用[6,7]。实际是,即便是利用者亲自到档案馆也未必能够获准查阅、复印。可以说,档案管理现状与现代信息开发利用技术的高效快捷形成了鲜明的对比,与人们对档案开发利用的强烈愿望形成了巨大的压力差,一旦把其间的籓拆除,必将会产生巨大的社会效益和经济效益,造福社会。
4 应用大数据方法挖掘档案价值的思路
综上分析,我们认为应从创造大数据挖掘的基本条件、研究针对档案数据的大数据处理方法两个层面来解决档案数据的价值挖掘问题。
4.1 创造大数据挖掘的基本条件
实现大数据处理数据的方法,①获得访问数据的相应权限;②要求处理对象电子化。
目前,对于档案及档案数据的访问权限,不论是制度层面还是管理层面仍处于保护、保密、保守的状态。对于档案资料的电子化,目前比例仍然很低,绝大多数档案还处于实物、纸本等状态,计算机无法处理。在采用复印、扫描、录入、摄像等电子转化过程中,面临转化成本高,转化效率低,转化经济效益、社会效益实现周期长、转化信息失真等问题,这些都大大制约、限制了电子转化的范围。
因此,要真正做到对于相应权力的利用者完全开放其应拥有的权限,我们建议从制度方面和管理方面一定要保证开放到位;同时,针对不同密级的档案,引入相适应的市场竞争机制,加快档案的电子转化和开放开发,激发档案的市场活力。探索由政府及档案管理部门主导下的市场主体实现档案的经济效益和社会效益的具体途径和方法,从根本上解决档案转化资金匮乏、转化技术原始落后、转化效益难以实现等问题。可以分阶段、分区域先行试验、试点,由点到面,逐步推广。
4.2 加大大数据方法在档案领域的专项研究力度
开展针对档案数据的大数据处理方法的专项研究。档案数据是大数据的重用组成部分,具有许多自身独有的特点,如转化为电子数据后可能成为识别难度大的图片、图像、音频、视频等形式、单位价值含量高、有一定的失真等。因此,针对这些数据,开展大数据处理方法的专项研究,从信息保真、信息识别的精准度,信息处理的算法、价值挖掘的方法等方面,探索这类具有特殊性的数据的大数据分析处理方法。
4.3 加大档案数据与其他来源数据的关联性研究
由于档案数据的真实可靠性、价值密度高、体量小等特点,将其与其他来源数据进行对比,研究其间的相关关系,可能会产生更大的价值;换言之,就是档案数据的价值链会大大延长,档案数据将产生极大的外延价值。例如,西方普遍采用的个人信用档案,当其与个人的工作、生活等方面公开的数据(如上班地点、上下班时间、购物记录、旅行情况等)相联系,就可能推测出其家庭财政收支情况、未来职业发展方向、家庭未来计划等重要信息,为银行信贷、公司招聘、政府规划等提供决策信息,其适用性很强。