大数据档案开发利用战略实践探究
2023-01-21肇庆市不动产登记中心蓝剑玲
文/肇庆市不动产登记中心 蓝剑玲
在大数据的时代,数据被认定为无形资产,当前人们甚至将其定义为土地、劳动力、资本以外的第四生产要素,由此可见大数据对于单位而言,有非常重要的价值。档案馆建立大数据档案开发利用战略,并将其应用于实践中,能够让人们充分利用“数据”宝藏。依据大数据应用创新档案管理模式应成为大数据时代档案管理的重要发展理念。
一、大数据档案馆藏状况和开发利用情况
受到传统档案管理的制约,当前大数据档案馆的档案管理没有适应时代发展需求,档案的开发利用率较低。以下几个方面得以呈现:1.“重藏轻用”的档案管理理念。大数据时代开启以前,人们曾经进入数字化时代。人们意识到将纸质化的档案变成数字化档案有着非常重要的意义,如果想全面共享档案,需要将纸质化档案转化为数字化档案。档案馆已经基本完成这项工作。然而受到传统管理制约,档案馆对于数字化档案管理的理解依然停留在做好数字化档案管理的基础上,导致档案的利用率不高。2.档案管理安全难以得到保证,在大数据时代,如何做好档案的安全管理,是档案馆非常重视的事情。只有充分做好档案的安全保护,档案管理工作才能够安全运转,档案资料才能够被充分运用。3.档案管理模式陈旧,当前档案馆的管理模式还延用旧的管理模式,于是档案管理还是以人工管理为主,对于档案出入库缺乏监督手段,基础设施(包含档案信息、空调、加湿器等的运作)无法实时查看,也没有提供远程管理的功能,当前数字化档案与实体化档案的结合度依然较低,没有达到大数据的全面数据共享的目标。4.为社会提供服务的手段比较单一,目前没有订制一套能够满足时代发展的服务系统,满足不同群体的需求。
二、当前大数据档案开发利用的特点分析
2015年,国务院印发了《促进大数据发展行动纲要》,对大数据进行了定义,说明大数据容量大、类型多、存取速度快、应用价值高,并指出开展大数据档案管理建设的方向。提出要建立大数据采集平台,对格式不同、数量庞大、来源分散的大数据进行智能化的、批量化的采集。应用数据挖掘工作发现数据的关联,从中发现新知识。结合推动行业发展为目标,创新大数据信息的利用。由此看出,开展大数据档案管理建设需要建立智能化的数据采集和共享平台,让大量结构化、半结构化、非结构化数据并存;研发采集和利用大数据信息的工具,在大数据环境下,难以全面应用人工的方式对档案信息进行管理,如何充分研发或利用大数据信息的工具,并能够结合需求让数据信息可视化,为提供优质的服务打好基础是建设的关键;优化服务意识,打造多元化的服务产品,让不同类型的群体获得需要的档案数据信息,这是大数据时代开展档案管理服务的理念。
三、大数据档案开发利用的有利与不利因素
在开展大数据档案管理时,需要看到有利因素与不利因素。
(一)有利因素是大数据档案管理的软件与硬件条件均已齐备。在数字化时代,为了将传统的档案管理转变为数字化档案管理,档案馆已经开展了组织建设工作,即档案馆建立了以数据管理为核心的业务机构。这个机构已经针对档案馆数字化档案管理需求开展了全局性的数据梳理、收集工作,又从业务开展出发,优化了业务流程,并为开展业务利用了一些数字化的档案管理工具,为数字化的档案管理提供了技术支持。进入了大数据时代以后,这些工作还将继续进行并逐渐完善。当前档案馆已经开始建立了数字化档案管理云平台,添置了一些智能化的设备,比如数字化的监控设备、二维码扫描设备等,档案馆正在开展以物联网为基础的智能化平台功能建设。
(二)不利因素是如何结合社会发展的需求和智慧化技术的发展。建立一个满足人们需求的智慧化档案馆,这是档案馆的大数据档案开发和利用的战略方向。如何结合当下档案馆现有的条件和设备,开展起步阶段的建设,打好未来大数据档案开发利用基础?如果没有明确这两项工作,那么大数据档案开发利用工作会缺乏方向性和可行性。
四、大数据档案开发利用起步阶段宜采用的做法
(一)战略目标。结合社会发展的需求和科学技术发展的趋势制订战略目标,这一目标是适合智慧化时代档案馆建设发展的需求而制订的大数据档案开发利用的目标。1.建立AI质检系统。未来档案馆会采集大量的信息,这类信息包含文字、图文、音频、视频信息。如果应用人工采集和人工审核的方法开展档案的审核和管理,那么会耗费太多人力资源和时间,并且成效较低,未来人们会应用AI质检机器人技术审核内容。人们可以给出机器人关键词,就能以智能化的方式批量审核数据资源。2.智慧档案管理平台建设。结合物联网、云计算、大数据、人工智能、移动应用等技术手段和设计理念来完成平台设计,智慧档案管理平台将具备实时呈现、集中管理、能够感知和处理多元化档案信息的能力,整合档案库房的管理系统和环境管理系统、档案安全系统,建立实体化和虚拟化管理一体化的智慧档案管理平台建设。智慧档案馆将建立档案安全、环境管理、库房安全、远程控制这四大核心管理体系,和虚拟3D库房展示,档案电子化加工系统这两个数据资源输入和共享两大体系。3.可视化的管理效果呈现。应用六大模块完成智慧化的数据管理。文字系统处理:非结构数据处理模型;自然语言识别模型;文档要素提取模型;图元素识别模型;关系图谱分析模型;情感识别模型;建模系统处理:机器学习在线建模引擎、文本挖掘建模引擎、图像语义识别引擎、响应预测建模引擎、时间序列建模引擎;外设系统处理:边缘计算机终端监控、物联网中数据监控、数字环境应用监控、数字安防应用监控、数字档案应用监控、数字安检应用监控;智能识别系统:人体特征识别算法引擎、场景识别算法引擎、物体识别算法引擎、轨迹追踪算法引擎、骨骼识别算法引擎、铭牌识别算法引擎;智能搜索系统:视频搜索系统、文档搜索系统、档案搜索系统、日志侦测系统、数据管道系统;数字员工系统:视频质检机器人、档案识别机器人、文档审核机器人。4.智能化的客户关联建立。基于客户数据,建立客户拓扑图下的关键词集合,以此建立客户与客户之间的关联,针对不同类型的客户提供有针对性的服务。
(二)实施措施。大数据档案开发利用战略需要分阶段实现,档案馆需要结合当下大数据时代技术发展的情况和档案馆提供的条件解决当下的问题,夯实后续建设的基础。1.优化资源管理建设。在数字化建设的基础上开展资源管理智能化建设。在大数据时代,档案馆需要采集的数据范围变广并变得更加庞杂,在开展资源建设以前,档案馆需要了解自己需要采集什么样的数据及如何有序管理数据。首先,找到核心数据,档案馆核心数据就是与档案馆运维有关的,自己生产出来的数据。这种数据最为关键,档案馆需要进一步挖掘标准化、规范化核心数据,为未来机器挖掘数据做好准备。其次,接收外围数据,档案馆经常会开展线上、线下的活动,此时消费者将进出或走出实体或虚拟档案馆,这些用户数据就是外围数据,应用这些数据可以挖掘出档案馆运维的效果,为优化服务提供依据。再次,采集常规数据,用户在档案馆消费了哪些产品及应用了哪些档案,这些数据就是业务开展需要使用的常规数据。最后,处理其他数据,其他数据是指社会化媒体数据,这类数据为非结构化数据,种类十分庞杂。这四类数据重要性不同,档案馆需要在采集数据以后,做好不同等级的数据保护,令重要的数据得到安全保护。比如档心数据要重视保护,并且加密保护,并将数据备份到云平台上,让服务商协助做好安保。对于外围数据和常规数据,则可以应用常规的保护技术进行数据保护,这些数据即使略有损坏,也能够应用模糊技术计算出缺失的数据信息,让数据发挥功能。其他数据可以即时采集、即时处理,不需要浪费成本和空间进行保护。2.建立虚拟管理系统。结合GIS系统和三维可视化场景,可以建立一个虚拟的档案馆系统。当前的虚拟技术已经比较成熟,建立虚拟管理系统以后,未来可把虚拟档案馆对外开放,这套系统包含以下几个方面的内容:虚拟档案存储容量监控子系统:将档案柜虚拟出来,然后将存储档案卷的大小数据化,人们可以应用可视化图形很快了解每个档案柜的存储情况和档案分布的数据信息。虚拟消防安全监测子系统,能够虚拟出安全消防设施运行的情况,当发现数据异常时,能够迅速将出现消防安全问题的地点指出,并且给出消防报警信息。虚拟配电监测子系统,将档案馆的照明数据虚拟化,人们可以通过系统看到当前档案的照明情况,及照明供电系统参数,对照明开关输入电的情况进行实时监测。虚拟环境监控系统,应用人工管理和储存的模式,会耗费太多的人力、物力、财力,当前档案馆需要更新一批设备做好环境管理工作。比如购买温度、湿度控制及除法设备,结合云平台、云技术,可以打造远程控制APP,让环境数据可视化,并结合需求远程控制管理环境。虚拟视频融合监控子系统,为了有效保护数据,档案馆已经建立了服务器安防系统。然而在当前安全环境较为复杂的背景下,档案馆还需要进一步应用智能化的安防设备,人员出入情况都能从视频中呈现出来。3.强化数据安全技术。在大数据时代,数据的安全管理显得尤其重要。一些等级高的数据为档案馆的核心数据,这些数据泄露会对档案馆的运营造成极大的影响。当前档案馆需要应用生物识别技术、区块链技术、层级加密技术对档案层层加密。不同的数据适用于不同的加密技术。生物识别技术应用于ID验证上,当前人们已经提供了指纹、面部、虹膜、声音识别技术,用户在登录时需要接受生物识别。区块链技术与层级加密技术应用于重要的档案资料保护上,其中区块链技术是将档案资料的数据信息分割成不同的区块链,然后每个区块链都应用相应的代码来识别,这一技术可应用于文字或图文档案中。层级加密技术一般应用于视音频的保护,通过加密,人们不能提取未经授权的音视频数据信息。4.制订多元化的产品。首先,制订多元化的产品,要具备开发和利用的意识,能够针对用户的需求去开发产品,优化服务;其次,要充分利用当下的设备和技术提取信息;最后,要应用智能化的数据分析技术挖掘出有用的数据信息,为档案馆产品服务行为决策提供依据。挖掘大数据信息,提取用户的登录、点击、下载信息,了解用户喜欢什么产品。结合用户的需求,可以提供更多的档案服务产品。提取用户评价信息,了解产品改进方向。这项数据的提取可以从网络大数据中,或者应用发放调查问卷来了解。用户的期待可以成为优化档案服务的方向。投放产品实验,档案馆可以结合自己的服务特点及结合用户的需求,尝试研发产品,然后将其投放到网络中,依照数据平台记录海量数据,可以了解用户对产品是不是很满意。基于微博、头条等人们经常登录的社区平台来对数据进行趋势预测和针对性营销。通过应用爬虫软件提取关键词,可以了解当前人们关注什么信息,有什么样的需求。在为他们量身定制产品以后,可以投放到这些社区中,然后采集用户的反馈信息,从而有针对性地实施营销策略。测量产品的直接反应和容忍度,对于用户的行为信息进行提取,比如分析用户的投诉情况,在虚拟档案馆中停留的情况,可以预测用户的需求,为服务产品设计提供帮助。基于环境数据的分析,了解用户在平日及休息日、特殊节日行为的区别,对用户流量、情绪进行预测,从而优化服务环境,比如可以分析是不是要限流,令用户得到更好的服务等。基于物联数据分析的产品,能够从监控系统中智能化分析的用户信息中了解产品周期,从而了解如何优化档案产品服务。
五、结语
在大数据环境中,落实档案的开发和利用战略工作,必须先明确档案资源与大数据的关系,然后有针对性地做好数据采集工作;建立虚拟化的系统,全面做好可视化的档案管理;从数据存储模式及利用需求来看,结合不同等级和不同类型数据的安全管理需求。建立一套多元化的关系型数据库管理方案,让未授权的用户无法实现对多类型大量数据的实时读取分析;开发多元化的服务产品。当下人们已经提供了智能化的设备,以较为成熟的技术,支持档案馆开展大数据环境下的档案管理,利用现有的设备和技术完成初步战略。