APP下载

大数据时代企业档案数据仓库建设的信息整理及利用

2022-06-16王海波

南北桥 2022年3期
关键词:数据仓库资源信息

[ 作者简介 ]

王海波,男,陕西咸阳人,湖北航天技术研究院总体设计所,助理馆员,本科,研究方向:档案信息技术管理与应用。

[ 摘要 ]

随着大数据时代的来临,企业信息资源的价值、价值与时间的关系、存储方式及利用方式等都发生了重大改变,随之而来的是对企业信息资源的收集建设方式带来了重大挑战。在大数据时代档案数据的收集范围将大大扩展,其存储、整理及利用服务方式也将产生巨大变化。

[ 关键词 ]

档案;大数据;数据仓库

中图分类号:G27

文献标识码:A

DOI:10.3969/j.issn.1672-0407.2022.03.009

1 大数据概述

1.1 大数据概念

2011 年,麦肯锡在研究报告《大数据:下一个创新、竞争和生产率前沿》中首次提出“大数据”的概念,之后《纽约时报》《华尔街日报》等都对大数据进行了专栏介绍。目前对大数据的理解从其基本特性出发,即“5V”,以volume(大量)、velocity(高速)、variety(多样)、value(价值)和veracity(真实性)来定义大数据。大数据可以进一步解释为非结构化数据的超大规模增长、实时分析而非批量式的分析、不同的形式和格式、无模式或模式不明显、不连贯的语法或句义等。

1.2 大数据的特点

1.2.1 数据量庞大、增长速度快

庞大的数据量是大数据首要的、最突出的特点。大数据时代的数据量不再是以MB、GB为储存单位,而是以PB、ZB为储存单位。据OECD 计算,2006 年全球数字信息量为16.1万PB,这个信息量为历史上图书信息总量的3000倍。2010 年全球数据量已达1.2 ZB,年增长50 %。2012 年10 分钟的信息总量为1.8 ZB。

1.2.2 数据种类多,异构化明显

一方面从数据结构上来讲,大数据包含了结构化数据,如企业资源计划系统等中的数据;半結构化数据,如电子邮件等;非结构化数据,如传感器产生的数据。另一方面从信息形式来讲,大数据包含了文字信息,如WORD、XML等不同格式的信息;图像信息,如各种格式的数字照片、计算机生成的矢量图片等;声音信息,如通过录音设备保存下的各种讲话等;视频信息,如各种格式的流媒体文件信息等。

1.2.3 价值密度低

大数据技术通过利用现有技术所能搜集到的相关数据对问题进行描述、判断,进而对其发展趋势进行预测。其利用的数据量在传统的眼光看来是不可想象的,甚至有些是错误数据,单位数据价值低,甚至有可能是负的。

虽然大数据具有以上特点,但是当档案信息及相关数据的规模达到一定状态后,便可以形成数据仓库,对企业的经营管理具备了反观和借鉴的价值。而如何利用与开发这种信息资源,则成为衡量企业软实力的重要标准。

目前,大多企业使用的都是以事实为基础的决策方法,这种决策方法在精确性与合理性等方面均达不到数据驱动的决策方法所能够达到的程度。只有大量使用数据分析来优化企业运营的各个环节和流程,通过基于数据分析的业务优化和重组,才能把业务流程和决策过程中具有的潜在价值挤出来,才能做到节约成本,战胜对手,成为在市场中幸存的目标。要想实现这种转变,仅仅是对信息及数据的收集是远远不够的,还要建立自己的“数据仓库”。运用“大数据”技术,通过一系列科学的方法,对收集到的信息及数据进行整理和深度挖掘分析,像滚雪球般建立自己的“数据仓库”,并加以利用。

2 企业档案数据仓库信息资源建设

2.1 对传统的非结构化档案信息资源进行数字化和数据化。

2.1.1 数字化

将过去纸质的文件,包括文字、图片、图纸等原始档案通过扫描等技术手段转化为数据库中的电子资源,建立信息资源库,通过建立索引快速查询所需档案信息,改变纸质档案分散、杂乱的状况,实现企业档案的优化整合,提高工作效率,使档案的凭证作用继续得到有效的发挥。

2.1.2 数据化

第一,原始档案著录信息数据化,对档案进行基于分类管理时代标注信息的数据化,提取其文字信息特征,使档案“件”与“件”之间的相关度信息能够继续保留。第二,对档案内容信息的数据化,综合利用OCR等文字识别技术,自动语音识别技术,图像分割、特征提取、匹配和识别技术,流媒体识别技术,对所有类型档案信息资源进行识别。第三,综合运用计算机深度语义理解技术与深度学习技术,加深计算机对档案内容的理解,建立档案信息内容之间的隐性联系,建立相关性识别模型,实现档案自动聚类,内容自动聚类。

2.2 传统的结构化数据的整理

2.2.1 标准整合

在企业内部对传统的结构化数据信息资源的整合首先要利用先进的技术手段,构建统一的网络平台,联结各个异构的应用统一,从而使单位和部门所使用的信息整理软件和硬件产生的所有数据能够集中统一并被识别。

2.2.2 信息的整合

将不同的技术环境形成不同类型的,处于一种无序、凌乱、分散的状态的各种类型数据连接成一个相互关联的数据库群,并与已经被识别的档案信息数据群相联系,实现所有数据的自由交换和流动以及系统化、有序化,实现数据的集成和整合。

2.2.3 数据分类标定

现代化的企业数据仓库集合了价值密度、可靠程度不一的大量数据,为了更好地使价值密集程度高、可信度强的数据资源发挥更大的作用,需要对数据按照价值密度、可信度等维度进行标定,以便充分发挥传统档案资源的骨干信息作用,尽可能地消除不确定性,提升大数据的工作效率。

2.2.3.1 价值密度分级。数据的价值密度分级主要是根据数据本身包含的信息量对数据进行分级标定。传统档案信息资源其价值密度最高可定为一级,企业实时运营数据可定为二级,原始数据可定为三级,通过互联网等非官方渠道获得的数据可定位四级。

2.2.3.2 可信度分级。数据的可信度分级主要是依据数据的来源对数据进行不同层级的分级标定。传统档案及一切原始记录可信度为一级,通过数据挖掘或其他渠道收集的官方信息为二级,非官方信息为三级信息。

2.2.3.3 可用性分级。在大数据时代,信息的当前可确定的价值只是其总价值的很小一部分,其潜在价值是无限的,不会随着时间的变迁而消失,但会随着时间而减少,我们可以称其为可用性。我们可以用时间、引用次数的变化趋势等参数对信息的这种变化进行判断、分级,这些都需要在数据仓库后续运行中根据企业的实际情况不断调整分级标注的策略。

我们通过三个大的方面对数据仓库建设中信息资源建设进行了初步探讨。笔者通过实践发现,任何信息都是有多面性的,其存在本身就具有多个属性。尤其需要注意的是,大数据并不是削弱了传统档案信息资源的重要性,反而使档案信息资源的重要性更加凸显。以笔者的实际经验看,档案信息资源具有信息密度大,准确度高,指向性强等特点,在信息标定中会有比较高的标定值,起到类似“骨干信息”的作用。档案资源中存在的重要的骨干信息,在建设信息仓库的过程中更要通过尽可能多的维度对一个信息进行描述。在对信息进行分级的过程中,分级的划分、排列的类型与信息不同属性之间的关联等都需要和企业自身的特点结合起来,这些具体经验只能在实践中不断摸索、总结,进而产生具有本企业特色的数据仓库。

最终,通过对数据仓库中的所有数据进行不同维度的分级标定,可以使数据挖掘更有效率,也可以使整个仓库的运行精确性大大提高。通过建立这样的数据仓库,我们可以打通不同载体形式之间、所有数据之间的壁垒,利用数据挖掘等手段加深计算机对数据的深层次语义理解,从而通过数据的整合共享和交叉复用形成智力资源和知识服务能力。

3 数据仓库的利用方式和服务

3.1 数据挖掘

在上述场景中,都牵涉海量信息加工提炼的问题。面对档案信息查找和信息加工的困难,通过数据挖掘技术对海量文本、多媒体等形式的非结构化数据进行开发和利用是一种好的手段。通过数据挖掘,特别是文本挖掘的两个领域——信息访问和知识发现,既可以快速访问我们明确要搜寻的信息,也可以通过数据分析、数据预测对某特定主题的所有相关数据进行加工,从而形成新的结论和认识。这样就可以将用户从繁杂的原始信息中拯救出来,提高信息服务质量;更深层次的利用则将极大地扩展人们对事物的认知边界,加深认知深度,从而更有效地推动企业和社会的发展。

3.2 实时服务与主动数据驱动服务

在大数据时代,为解决实时服务的问题,档案信息平台必然要与各类管理、设计、监控等功能系统高度集成,数据实时归档、处理,以实现实时档案服务。在产品质量管理、分析与工艺优化场景下还体现一个十分重要的理念,主动数据驱动服务,主动将数据或处理结果推送给用户。在未来,通过用户信息、行为分析,能很容易地预测用户需求,进而可以变被动为主动,将其所需的权限内的信息以实时推送的方式提供给用户,供挑选利用。实时的主动的数据驱动服务是提高信息服务工作地位、提升服务质量的重要手段。

3.3 编研等信息处理工作

由于大数据时代信息的冗杂,质量良莠不齐,档案编研等信息工作将变得更加重要。由人工按照用户需求分析结果,有目的地对核心、可靠数据进行加工甚至是半加工,产生的可信的数据处理结果可以大幅度地为用户提高信息收集效率。我们可以对某个主题进行深入编研,对数据挖掘结果进行人工核实,再进行加工,产生可信的编研成果。甚至可以对某主题相关信息直接进行可信档案信息目录汇编,将汇编结果保存在信息平台中,由系统自动推送给所需用户进行参考。可以对重要的语音识别、图像识别结果进行人工校验,将其变为更为准确的档案信息。

4 结论

在现代社会,随着生产活动分工日益细化,企业作为经济活动的基本单元在各种业务活动中产生了大量的数据或信息。在传统的信息管理模式下,人们通过手工著录、卡片检索、计算机辅助管理都可快捷便利地查找到所需要的信息。但是当信息量呈指数形式增长之后,依靠传统的检索工具或者索取信息的方式往往都会迷失在数据海洋之中,检索效率会急剧下降。还有就是,随着信息存储成本的不断下降,无序信息内部也要求呈现其内在关系。如何在大量的信息中快速而准确地找到所需信息,如何快捷的揭示海量信息之间的潜在联系或者因果关系是大数据时代档案业务首要解决的问题。

在大数据时代,企业使用大数据云集计算等服务,可以有效解决企业面临的信息困境,迅速取得对手远不可及的优势,实现弯道超车。特别是作为传统的大企业,要想保持当前的优势,必然要紧跟时代发展,顺应大势,大力发展、应用大数据技术。作为档案管理人员,我们应顺应潮流,主动迎接大数据技术带来的变化和挑战,在现有条件下逐步按照大数据的思想对档案资源进行收集、整理,为企业在大数据时代转型提供助力。

參考文献

[1]刘文远,李少雄,王晓敏,等. 大数据知识发现[J]. 燕山大学学报,2014(5): 377-380.

[2]郑清华. 档案信息资源开发与共享[J]. 科技资讯,2015(5): 213.

[3]王毅,赵淑梅. 国有企业技术创新与档案管理安全研究[J]. 档案学通讯,2014(2): 63-67.

[4]谢君. 建设大档案,应用大技术,实现大服务——大数据时代下的大档案观[J]. 办公自动化(学术版),2015(1): 51-54.

[5]鲁德武. 试述档案大数据的定义、特征及核心内容[J]. 档案,2014(4): 13-15.

[6]施永利. 大数据时代背景下的档案利用服务探讨[J]. 商,2012(11): 145,129.

[7]赵淑芳,单桂娟. 浅谈大数据应用现状及发展趋势[J]. 商,2015(36): 223.

[8]余红光. 关于大数据时代背景下的档案利用服务分析[J]. 黑龙江史志,2015(3): 98.

[9]朱丽梅. 大数据时代档案馆公共服务的探讨[J]. 兰台世界,2014(2): 16-17.

[10]莫丽彬. 浅议大数据时代档案信息服务的发展[J]. 兰台世界,2015(29): 117-118.

[11]孙洁. 大数据背景下档案知识服务[J]. 兰台世界,2016(3): 8-10.

[12]陈芦燕. 大数据时代的档案信息服务研究[J]. 兰台世界,2014(8): 29-30.

[13]祝彩凤,杨晓慧. 大数据背景下档案信息资源利用服务工作的特点研究[J]. 办公室业务,2015(23): 97-98.

[14]金丹. 大数据时代的档案利用服务工作研究[J]. 兰台世界,2015(20): 111-112.

猜你喜欢

数据仓库资源信息
基础教育资源展示
一样的资源,不一样的收获
基于数据仓库的住房城乡建设信息系统整合研究
资源回收
资源再生 欢迎订阅
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
健康信息
健康信息(九则)