大数据技术在会计中的应用初探
2015-03-17山东农业大学经济管理学院张明敏董雪艳
●山东农业大学经济管理学院 张明敏 董雪艳
大数据技术在会计中的应用初探
●山东农业大学经济管理学院 张明敏 董雪艳
信息技术的迅猛发展对会计工作产了的影响日益广泛。会计工作可以采用更先进的技术来提高效率,实现会计的目的。本文探讨了大数据技术的内涵、大数据的相关技术及其在会计中的应用,并对大数据应用的未来趋势和挑战进行了展望。
大数据 大数据技术 会计
引言
目前,大数据技术已经融合并促进了很多行业的发展,也使得数据作为早已存在的“新兴资源”而万般得宠。在会计领域,“大数据+会计”的模式必定将推动会计在新信息时代的变革,由此产生的“大会计”能够体现企事业单位、政府、国家的综合数据处理能力。大数据相关技术应用于会计是“大会计”面世的第一步,这不仅是会计理论变革的需要,更是会计在实际应用中的需要。
一、大数据技术的内涵
(一)大数据技术的定义。大数据技术实质是信息技术的一种。正是因为信息技术的应用才使会计信息化被提出来并成为现实;同时,会计信息是个体提供者提供的信息,这些个体信息只有汇集才能成为宏观经济决策的有用信息,这种汇集本身就是信息技术。因此,信息技术是指在管理与处理各种信息过程中所应用的各种相关技术的总称,其显著特点是通过相关技术手段,“非接触”地实现相应的信息沟通目的。
具体来说,大数据技术是指帮助人们对大容量、多种类、高速产生的数据进行获取、存储和分析,最终提取出有价值的信息并且要保障整个过程中的数据安全的技术。可以理解为,大数据技术是具有从各种各样类型的数据中,快速获得有价值信息的能力的信息技术。当前大数据存在两条主要技术路线,一条是基于集群技术的数据资源整合技术,将分散的计算和存储资源整合输出;另一条是基于虚拟机技术的数据资源切分技术。这两条技术路线应用在会计领域将会计信息集成整合,并根据不同会计信息使用者的需求进行资源切分后输出相应财务报表或财务图等可视化结果。
(二)大数据技术链。大数据技术链是指大数据技术在信息处理过程中形成的各技术环节及相互关系,表现为:数据采集、数据组织、数据分析、数据应用、数据再利用、数据投资几个环节。一个信息技术企业的内部组织结构可以概括为组织与管理层、分析与发现层、应用与服务层三个层次。数据的采集、组织、对应组织管理层,数据分析对应分析与发现层,数据的利用和再利用对应的是应用与服务层。不同的大数据技术链环节所使用的大数据技术不同。可以看出,大数据技术链环节与相应的组织结构在会计应用中仍适用,大数据技术链带来的数据市场的细分也将会改变传统会计的组织结构。
二、大数据相关技术
大数据的产生、组织和处理主要是通过分布式文件处理系统来实现的,主流的技术是Hadoop+Mapreduce。其中Hadoop的分布式文件处理系统(HDFS)作为大数据存储的框架,分布式计算框架MapReduce作为大数据处理的框架。
(一)大数据存储技术。数据存储的第一步是在数据源中进行数据的抽取和清洗。数据抽取时通常由抽取规则驱动一个通用抽取算法在数据源中搜索与抽取规则匹配的数据对象。数据清洗是对数据源进行详细分析后,将从单个或多个数据源中抽取的原始数据(不纯、含有杂质,有人也称为脏数据)经过一系列转化使其成为满足数据质量要求的数据。
传统的结构型数据库SQL已经不适用于大数据存储,非关系型分布式数据库NoSQL是实现HDFS的主要技术。海量数据存储的关键技术在于数据分块存储和容错机制,世界领先的大数据应用平台Hadoop正是为解决这一问题而研发的技术,它能够存储的数据量在PB级别以上,并且针对非结构化数据也能很好地处理。(1)分块存储技术:HDFS是Hadoop的分布式文件处理系统,采用的是元数据集中管理与数据分块存储相结合的分块策略,切分文件是根据文件的逻辑记录结构进行切分,保证逻辑记录的完整性,同时形成虚拟的全局逻辑目录,以供数据处理和分析时,系统通过文件的逻辑目录顺利地找到被分割后的文件块并对该文件块进行处理;(2)容错机制:通过数据的副本策略来实现高度容错,HDFS中的文件通常有3个复制的块,除了自身的块外,另外两个块用于容错机制,即在文件本身由于磁盘损坏、系统故障等原因而失效后,将启用复制块用于失效的恢复。总之,副本策略保证了文件存储的高可靠性,分块策略保证数据并发读写的效率并且是MapReduce(Hadoop的分布式计算框架)实现并行数据处理的基础。
(二)大数据查询和分析技术
1.大数据查询技术。SQL on Hadoop技术建立在Hadoop之上,专门用于大数据存储的非关系型数据库进行查询和分析,但目前还处于起步阶段。SQL on Hadoop的技术实现原理有多维数据库并行处理技术和表分区技术。
(1)多维数据库并行处理技术:通过对查询语句进行分析、优化,根据分析的结果将查询分解或复制为多个等价的子查询,将子查询语句在相应的数据库节点上执行,它降低了每个本地数据库的查询规模,并实现查询的本地化并行查询,提高了数据的查询效率。(2)表分区技术:经表分区后,数据在数据库中按一定的规律存放。当进行数据查询时,系统只需扫描存放数据的响应表分区,查询扫描规模可以大大降低,数据查询性能也会得到相应的提高。
2.大数据分析技术。大数据分析技术又称数据挖掘技术,是大数据应用的核心部分。数据挖掘的目的是从数据中挖掘隐含的信息,进而发现知识。数据挖掘采用较多的数据有决策树、分类、聚类、粗糙集、回归分析、关联规则、特征分析、神经网络、遗传算法等。其中决策树、分类、聚类、粗糙集都是对数据进行分类的技术,使得同一类别数据间的相似性尽可能大,不同类别数据间的相似性尽可能小;数据分类之后,回归分析、关联归则、特征分析和神经网络都是对隐藏在数据间的关系和趋势特征进行挖掘的技术;遗传算法是被用来评估其他算法适合度的技术。
另外,数据分析的结果呈现由可视化技术来完成,一种是可视化分析报表,用图和表来描述数据分析结果;另一种是可视化分析,得到的是一个数据集的统一的视图,点击饼图或者柱图,相关分析结果可以进一步展现。
(三)大数据安全技术。据统计,过去十年间,网络安全漏洞增加了8倍,安全问题不解决,同样会成为大数据发展道路上的障碍。
1.大数据安全存储技术。大数据安全存储技术主要有数据加密、分离密钥和加密数据、使用过滤器、数据备份、加强细粒度授权管理。这些技术的目的主要是:为数据流的上传与下载提供有效的保护;把数据使用与数据保管相分离,把密钥与要保护的数据隔离开;一旦发现数据离开了用户的网络,就自动阻止数据的再次传输;定期通过系统容灾、敏感信息集中管控和数据管理等产品,实现对端对端的数据保护;根据大数据的密级程度和用户需求的不同,将大数据和用户设定不同的权限等级,并严格控制访问权限。
2.大数据采集和传输安全技术。大数据采集技术使用身份认证、数据加密、完整性保护等安全机制来应对可能出现的数据损坏、数据丢失、数据泄露、数据窃取等安全威胁;大数据传输安全采用的技术和实现目的有目的端认证源端的身份以确保数据的真实性、数据加密以满足数据机密性的要求、密文数据后附加MAC(消息认证码)以达到数据完整性保护的目的、数据分组中加入时间戳或不可重复的标识来保证数据抵抗重放攻击的能力。
3.大数据挖掘安全技术。数据挖掘过程中首要解决的安全问题是对数据挖掘者的身份认证和访问管理。(1)对挖掘者进行身份认证是为了证实用户的真实身份与其所称的身份是否相符,进行身份认证时可以使用基于秘密信息(如ID、口令、密钥等)的身份认证技术、基于信物(如信用卡、智能卡、令牌等)的身份认证技术和基于生物(如指纹、声音、虹膜等)特征的身份认证技术等。(2)访问控控制是进行数据安全保护的核心策略,常见的访问控制模式主要有自主访问控制、强制访问控制、基于角色的访问控制。其特征分别是能够授予或收回其他主体的访问权限、根据安全策略强制控制用户的访问权限、通过对角色授权来控制用户对系统资源的访问。
4.大数据发布安全技术。在进行数据挖掘后,要向数据使用者输出可视化结果,数据发布的主要安全技术是安全审计。对大数据进行安全审计的角度主要有大数据日志、网络监听、网关设备、代理审计,能过这些层面记录与系统安全有关的活动,对其进行处理、评估审查,查找安全隐患,并对出现的问题进行分析和处理。但是再严密的审计手段也难免有疏漏之处,在数据发布之后,如果出现机密、隐私的外泄等安全问题,就需要采用数据溯源技术,及时准确地定位到出现问题的环节和责任者,以便对数据安全问题的解决。
三、大数据技术在会计中的应用
(一)信息技术在会计中应用的阶段性成果。会计与信息技术的关系不仅表现为会计对信息技术的利用,还表现在信息技术对会计产生的重大影响。信息技术在会计中的应用经历过了两个阶段:会计电算化阶段和企业资源计划(ERP)阶段。
电算化为会计带来的变革主要是摆脱了手工做账的烦琐,实现会计数据处理的加速。其明显优势是大幅提高了工作效率并通过节省人力、物力降低了会计成本,但形成了企业内部各部门间的信息孤岛现象;
企业资源计划(ERP)则使得会计信息与其他部门信息处于同一信息系统中,将企业的物流、财流、人流、信息流集成在一起,作为整体为企业管理提供依据,企业内部的信息孤岛问题得到缓解,但企业内部与企业外部间又产生了新的信息孤岛。
(二)大数据技术在会计中的应用。据统计,会计信息满足了人们从事经济管理所需要的70%以上的信息,现在大数据技术作为信息技术的前沿理所应当应用在最创造价值的会计数据的分析中。
1.数据存储。会计人员可以利用大数据存储技术提高未来会计大数据存储的条理性、整洁性、容错性,当需要对会计数据进行处理时可以迅速、便捷、安全地抽取所需数据;如果会计数据在处理过程中丢失或毁损,大数据的副本策略可以对数据及时恢复,保障数据的完整性。通过结构优化的数据扩展了会计数据的维度,多维度的数据交叉有助于将零碎的数据整合为有用的信息,而局部的信息又可以堆积成一个知识,进而提升了信息的质量。
2.数据查询和分析。大数据查询和分析技术应用在会计中可以对所有相关数据进行分析,而不仅局限于财务数据;更加关注会计主体的外部信息,而不仅限于内部的数据。大数据查询技术不仅是数据分析人员查询目标数据的工具,还可以满足税务、银行、利益相关者等对原始数据查阅的需求,因而在一定程度上解决了企业内部与外部之间的信息孤岛问题。各种分析方法下的会计数据分类、挖掘、效果评估增强了会计数据的可靠性。可视化技术使分析结果的呈现更加多样化,在一定程度上使会计数据的可理解性得到提升。会计走向大数据的趋势也必然是包含大量的非结构化数据,全面挖掘大数据与未来实现会计辅助决策和创造经济利润的目标密不可分。
3.数据安全。会计数据安全关系到企事业单位甚至国家利益的重大问题,因此会计安全问题也是会计主体接受信息技术时考虑的基础问题。一系列的大数据安全技术为采集、传输、存储、挖掘、发布等各个环节中会计数据的安全性提供保障,不论是基础数据还是加工数据,凡是涉及会计主体机密的敏感数据可以受到很好的保护,会计主体更愿意接受大数据技术。这样未来的会计数据市场才有可能发展起来,为会计信息需求者提供个性化的选择。
大数据技术广泛应用于实践,包括应用于会计,才能体现它的潜在价值,也能发现大数据技术存在的弊病,促进大数据技术的改良。“大数据+会计”模式必定会为会计开创新的天地。
四、大数据技术应用的未来趋势和挑战
大数据技术的发展给会计变革带来了新的机遇,但同时也面对着大数据质量管理等大数据治理方面的难题,是否会有越来越多的“脏数据”混入真实数据之中,数据的抽取和清洗技术又能否实现高清度的数据过滤;另外,数据产权问题也被提出来,大数据产权的有无、多少应该怎样界定,数据产权是属于某个人还是某个组织,人们为了保护数据记录的个人隐私是否会趋向于“数字化节制”时代的发展,抑或是“个人数据超市”将兴起;会计人员及会计信息使用者的信息技术水平会影响大数据技术在会计中的应用进程;能否及时建立完善的大数据标准和大数据法律保护机制以创造大数据发展的良好环境等等都是值得关注的问题。会计数据作为大数据帝国的一员,应当紧跟大数据发展的步伐,积极做出自身的调整并为大数据的进一步发展做出一定的贡献。■
1.鲍亮、李倩.2014.实战大数据[M].清华大学出版社。
2.陈辉.2012.信息技术在会计中的具体应用[J].会计师,1。
3.沈弋、徐光华、王正艳.2014.“言行一致”的企业社会责任信息披露——大数据环境下的演化框架[J].中国会计学会环境会计专业委员会2014学术年会论文集。
4.苏对泳、谭琳.2014.大数据技术及其在信息系统中的应用[J].计算机光盘软件与应用,2。
5.王鹏、黄焱等.2014.云计算与大数据技术[M].人民邮电出版社。
6.张尼、张云勇等.2014.大数据安全技术与应用[M].人民邮电出版社。
7.赵刚.2013.大数据:技术与应用实践指南[M].电子工业出版社,10。
8.郑楼英.2007.数据挖掘技术在会计信息系统中的应用初探[J].财会研究,6。