APP下载

大数据时代基于孤立点分析的审计抽样方法探讨

2017-07-06周明杰缪慧玲

中国管理信息化 2017年12期
关键词:大数据

周明杰+缪慧玲

[摘 要]在计算机技术发展过程中,海量的存储及高效的计算机运算为实际工作提供了较强的技术支持。审计工作需要处理和分析海量的财务数据,利用计算机数据挖掘技术开展审计工作,能突破传统方法的限制,并且提升工作效率。通过应用计算机数据挖掘技术的孤立点分析,构建相应的模型,能有效发现审计中的问题,对审计工作的顺利开展具有重要意义。

[关键词]孤立点分析;审计抽样;大数据

doi:10.3969/j.issn.1673 - 0194.2017.12.022

[中图分类号]F239.2;TP311.13 [文献标识码]A [文章编号]1673-0194(2017)12-00-02

在当前时代背景下,有效开展审计工作成为各行业发展的关键。通过实践,相关技术研究人员发现应用数据挖掘技术的孤立点分析,可以极大提升数据分析能力,辅助审计工作中的专业判断,并发现隐含问题,为审计工作提供必要的支持。

1 孤立点概述

所谓孤立点,指的是在运用计算机处理数据的过程中,出现的处于离散状态的小规模数据对象,这一小部分数据对象与数据中的一般规律和趋势具有显著差异。在海量数据中,往往会出现一些与众不同的数据,这些数据并不是由随机偏差产生的,可能产生于完全不同的机制,所以在聚类分析中表现为不属于任何的簇或者类,这些数据对象一般被叫做噪声,在相应的孤立点分析中叫做孤立点。在审计领域,因为具体的模型和审查背景存在一定差异,所以对于孤立点的分析也会得出不同的结论。此外,蓄意操作、操作错误、整体数据偏差、系统和测量错误等都会导致孤立点的出现。因此,相关审计人员需要关注这些因素,并对深入分析相关情况产生的原因,从中筛选出价值较高的信息内容。

2 孤立点分析

孤立点分析,指的是利用数据分析方法和挖掘理论模型,发现数据在集中态势下出现的异常值。在审计分析过程中,异常的频率、事件和数据往往具有特殊的含义,且包含着重要信息,可以从中发现违规、违法行为的线索。

2.1 孤立点分析的步骤

孤立点分析方法大致包括两个步骤。第一步:确定数据集合中变量的属性,而后根据非财务数据和财务数据进行分类。接下来进行因子分析,从多个变量指标中选出具有一定代表性的综合变量指标,而后达到数据降维的目的,是重要的多元统计方法。在分析过程中,使用解释总方差可得到累计方差贡献率,该指标的高低直接影响原始数据代表程度的高低,若影响程度较高,则相应的公共因子可信度就较高。计算输出因子的荷载矩阵,能获得原始数据的系数矩阵,相应的元素数据如果较高,那实际原始数据的解释程度就比较理想,有利于对相应公共因子命名,并能获得预期的数据指标。第二步:挖掘和检测数据,如果数据中呈现出离散状态的小规模数据,那么能发现孤立点。传统方法主要应用密度、偏差、距离的特定方法来寻找相应的孤立点。此外,使用云计算技术,能应用比较复杂的运算方式来计算相应的计算资源。

2.2 孤立点分析的方法

第一,基于人工神经网络模型的方法。在这种方法中,可以使用比较小的统计数据集,同时也可以采用比较大的专业数据集,所以检测大小数据孤立点都能获得良好的效果。但是,这种方式在检测具有放射状孤立点数据集时,实际效果不佳。

第二,基于偏离的分析方法。这种方式是根据数据对象的突出特征来进行分析和检查,并找出其中的孤立点。在这种分析模式下,一般采用OLAP数据立方体技术及序列异常技术。前者需要把审计中的异常单元进行正确标注并且下钻,这样可以发现更深层次的问题。后者需要预先定义样本集中的一般特征,并且把相应的偏离和具备这些特征的样本区别开来,可以通过相关审计数据集的总方差来发现相异度函数。

第三,基于距离的分析方法。这种方法主要对相关数据域的数据内容进行相异度分析,并且清洗相应的审计数据,检验数据的有效性后,再根据相关审计内容特征,通过公式计算出符合大部分对象之间距离的相应阈值,同时把相应数据定义为孤立点。通过这种方法,可以解决基于统计方法的数据分布特征相关问题。

第四,基于密度的方式。这种方法主要使用数据对象的局部密度来检测相应孤立点。如果相关数据对象的区域密度和临近相关数据的密度的实际局部孤立点因子值较大,那么就可能属于孤立点。这种方法在发现局部孤立点时具有良好的效果。

在实际审计中,在异常检测及处理审计数据的过程中,需要进行孤立点分析。审计人员需要有效处理原始数据,并完成相应验证、清洗及采集,确保数据满足相应的建模要求,并且根据相关数据的特点来选择合适的孤立点分析方法。

3 在大数据环境下应用孤立点分析的审计抽象方法

3.1 提出需求

在审计过程中,审计人员需要根据自己的洞察能力来分析相应的异常情况,并发现海量数据中的孤立点,而后和相关人员进行深度沟通,以全面了解审计需求。在明确审计需求时,涉及数据理解及业务理解的内容。所谓数据理解包括对业务流程及审计部门的理解,对原始数据的分析和收集,对数据的初步探索和检测。业务理解包括數据挖掘目标、项目计划,评估审计目标资料等,根据相关需求来进行假设。

3.2 演示相应的审计抽样模型建构原理

第一步,明确需要审计数据的集合的变量属性,实施因子分析。相应的背景是学校基建工程结算审计,需要全面调查学校在公寓建设方面的资金进出是否有效且合理,是否存在贪污公款、违规挪用的严重问题。第二步,发现相应的孤立点。笔者需要应用基于距离的孤立点分成方法,并应用K-means算法来寻找孤立点,这样做的目的是发现与相应宿舍楼建设综合情况差别较大的项目和影响因素,使用因子散点图来探讨实际原因。

3.3 实际案例分析

随着高等院校招生规模不断扩大,为确保学生的正常生活和学习,各高校都加强了自身的基础设施建设。为了能够有效、安全地使用相应资金,各高校需要联合监察、纪委等部门进行结算审计,审计相应的学生公寓楼工程。因为时间安排及人员方面的限制,不能全面审计全部公寓楼工程,需要通过孤立点分析的方式来选取相应审计样本。

第一步,需要掌握全部公寓楼的相关数据,包括电线电缆、排水管道、采暖管道、门窗工程、保温隔热屋面、屋面卷材防水、钢筋工程量、整体混凝土体积、辅助面积、使用面积、相应的工程结算总价款及工程合同总价款,需要整合这些数据信息。由于篇幅的限制,本研究只分析工期时间、辅助面积、使用面积及建筑面积这四个变量,并根据相应数据分析相关因素对工程结算总价款及工程合同总价款的影响。在明确相应变量的属性后,全面分析六个指标,并且得出解释总方差,这样可以得出累计方差贡献率为90.975%。工程合同总价、工程结算总价款和建筑面积三个因子具有较强的可信度,所以需要使用这三个因子作为特定的公共因子。

第二步,使用K-means算法来进行聚类分析,这是为了寻找孤立点。在实际聚类分析中,全部的观测数据可以分成四个种类,这四个种类中没有缺失值,而且具有一定的有效性。分析结果表明,大部分数据间是互相有关联的,主要分布区间在1、2、4簇中,只能看到第三簇的数据与其他数据严重偏离。第三簇中的三个观测点占观测点数量的4.5%,低于10%,所以这三个观测点属于孤立点。通过聚类分析的方式,能够找到3个孤立点,但以3个孤立点作为审计范围的标准并不科学,应经过多次数的迭代过程,这样能确保数据集中相应的孤立点。与此同时,还需要聚类分析1、2、4簇中的观测点。相应的步骤和文中相同,所以不再具体的描述。最后的步骤,需要总结分析四次的聚类分析,并且发现其中的全部19个孤立点,并且进行审计抽样,而后根据散点图进行全方位的审计。

3.4 判断

检测依据相关模型得出的最终数据挖掘结果,若检测结果的异常情况在合理范围内,那么审计人员可以根据自己的经验判断该结果是否达到标准;如果没有到达相应水平,则可以不予处理。在建立基于孤立点分析的审计数据模型时,需要深入了解相关数据内容,并且合理把握孤立点算法和审计需求的融合程度,而后构建统一标准。在这个过程中,只有持续地进行反馈和论证,才能确保方案和挖掘模型的实用性及针对性。通过建立准确的模型,发掘数据,假设相应的孤立点,而后发现反常及特殊的孤立点,通过查阅资料或者进一步追踪,就能发现问题所在,并且发现不规范和舞弊行为,提升审计的实效性。

4 结 语

大数据为审计带来了新的机遇和挑战,利用相应的非财务数据能快速得出需要的信息,并且有利于提升审计的有效性。本文利用孤立点分析对策构建了相应的模型,并且通过针对性分析,达到降低审计成本、提升审计效率、降低审计风险的目的,具有较强的应用价值。

主要参考文献

[1]朱政,刘侃.孤立点分析在税务审计上的发展运用[J].硅谷,2012(19).

[2]陳丽娜.孤立点挖掘研究[J].内江科技,2009(3).

[3]王越,刘亚辉,徐传运.孤立点用户意义分析在质量管理中的应用[J].计算机应用,2009(11).

[4]贾晨科,邱保志.基于局部孤立系数的孤立点挖掘[J].微计算机信息,2005(26).

[5]高恩阳,刘伟军,王天然.一种基于线性规划的孤立点检测方法[J].控制工程,2013(6).

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
基于大数据的小微电商授信评估研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究