审计信息系统的异常数据挖掘算法和应用

2020-09-22毛玲玥

全国流通经济 2020年19期

关键词：应用

摘要：信息系统作为企业经营管理活动的基本手段，需要从海量数据中搜索得到有效的审计证据和审计线索，能够发现经营活动的异常是审计工作的重要内容。本文在对各类异常数据挖掘算法的分析和总结基础上，关注审计数据挖掘中问题的解决，使得审计信息系统的异常数据挖掘算法得以推广应用。

关键词：审计信息系统;异常数据;挖掘算法;应用

中图分类号：F232.6;TP393 文献识别码：A 文章编号：2096-3157（2020）19-0183-02

随着信息技术的发展和广泛应用，审计单位的经营和管理及核算模式出现明显变化，其更加复杂且庞大的信息系统，使得传统的会计核算和经营管理系统的构成要素也随之改变。审计人员在进行资料整理的时候，需要面对大量电子数据信息，信息系统审计属于信息环境中全新的审计方式，其地位日益凸显。当前审计信息系统所面临的问题是应对数据海量化的挑战，能够在海量数据中有效快速得到规律及特点，挖掘审计线索，降低审计工作的风险，需要数据挖掘技术的支持，这也为审计信息系统的构建及应用提供新的发展方向[1]。

一、数据挖掘概论

数据挖掘主要是指从大量不完全和有噪音及随机数据信息中提取隐含的信息和知识的过程，数据挖掘在信息系统审计工作开展的时候具有重要作用和积极影响，其不仅能够对信息系统所产生审计业务数据及财务信息等深层次研究，得出其本来所具有的特点和内在联系，也可以在模型匹配及挖掘算法的支持下实现信息系统开发审计和安全审计等各个方面的实际应用，在数据挖掘技术和信息系统审计技术的融合下，能够明确系统控制审计符合文件资料嵌入审计程序所需要采集的信息内容[2]。

二、异常数据及其来源

数据挖掘主要是在计算机技术和软件支持的基础上，所获取的大量模糊的数据中提取一些不明显的规律，在这一基础上得出更多有效的知识内容。异常指不一般的数据，推动人们认识到这些数据不属于原本系统的随机偏差，多数情况下是在不同机制的支持下实现的，异常本质和正常数据之间差异明显，个数和正常数据相对比具有对象数量比较少的特点，通常情况下，异常数据的来源主要有相异的类和自然变异及数据收集误差等。

首先，相异的类属于数据对象的异常，其可能来源于不同的对象，在审计处理的时候，需要分析异常变动数据，例如资金流量异常变化和异常的交易情况等，这些异常多数情况下存在着代表性特点，是关注的重要对象。

其次，自然变异则属于多数数据在正态规律分布的基础上实现的，通常这些数据都比较接近数据的中心，而两边的数据相对较少，例如在营业收入分析的时候，主营业务是正常的计算对象，而偶然一次性营业收入是对象类中的异常情况[3]。

最后，数据测量收集误差的异常是在设备测量问题比较突出所得出的不正确记录问题，这些数据本身不会提供被审计对象认可的有价值信息支撑，相关数据资料不会为去除这些异常，同时注重提高数据及数据分析的质量。

三、异常数据挖掘算法

1.基于统计方法的数据挖掘算法

数据挖掘算法产生之前，多数情况下处于异常数据的时候是利用剔除法，近些年是基于不同分布的异常检验方式进行异常数据处理，通常是在不同分布的异常检验方式基础上实现的，在概率分布模型支持下，随后在某一个显著性水平上明确得出具体的拒绝域和接受域，如果数据落在拒绝域范围中，将其确定为异常数据，基于统计的算法受到广泛关注，实际操作的时候，具有两种比较简单快速的异常检测方式，也就是3σ异常检测方法和Z统计量法。统计方法本身具有较为坚实的数学基础，如果给定相关模型，其本身存在着比较大的指导意义，但是这一方式多数是在明确单个属性的情况下实现的，无法有效处理多维空间的异常数据。

2.基于距离方式的数据挖掘算法

基于距离方式的数据挖掘算法是基于数据点距离进行计算的，其本身具有明显的几何解释，且能够避免统计方式的局限性特点，其也能够有效应用到多维数据样本中，而统计方法则不行。基于距离的算法中应用比较多的包含着DB（p，d）方法和k-近邻方法。DB（p，d）方法的基于距离的异常是没有充足的另据的对象。k-近邻方法的主要思想是为每个对象找到其k个最近的邻居，在有效对其对象到这k个邻居的最大的距离分析的情况下，进行对象距离排序处理，得出排序比较靠前的对象作为异常点。

3.基于密度的数据挖掘算法

基于统计学和距离的异常数据方式主要是在给定的数据集合的全局分布基础上实现的，随后，也要能够结合明确数据分布情况得出当前基于密度的方法是局部离群范围是远离的，则可以成为局部离群点，其不将离群点作为二元性质的对象，而仅仅是评估一个对象为离群点的程度[4]。

四、审计信息系统的异常数据挖掘算法的选择和应用

在审计数据的时候，要求能够尽快发现其中的异常数据，从而达到预警和减少损失的效果，被审计的信息通常情况下都会被储存到ERP等信息系统中，审计人员也要能够将数据导入到计算机分析数据表内，随后挖掘其所包含着的异常数据，但是，在企业信息化更大范围推广和数据库并行应用的基础上，单一的异常数据挖掘算法当前无法满足被审计对象数据异常的及时发展过程中，需要加强对算法的改进和完善[5]。

1.基本算法

首先，测量距离的量度相对较为常用的包含着绝对距离和欧式距离，绝對距离的定义为：

最后，描述算法，如果数据集合S中所涉及到的P部分和对象O距离明显要大于d，对象O也为带参数的P和d的给定距离方面具有的异常点。R[k]表示在第一属性值记录情况下，假设O（1，2，…，n）按照顺序排列，则具体算法如下：第一步选择中心点，第二步设置初始值和权重向量，第三步WHILE（不满足结束条件）。

2.基于单元的异常数据算法

基于单元的孤立点是充分将数据划分为相似的单元格，根据单元格的坐标及数据对象关系有效推动数据对象能够更好地映射到单元格中，从而对其异常点深入检查和有效确定，对于无法利用单元格的算法也能够根据其所具有的距离算法加以解决，首先假设数据为二维数据，随后向多维数据推导[6]。

（1）经典的基于单元的异常点算法

最早得出基于单元的异常数据的算法是可以检测储存于内部的存储数据信息，这一算法能够检测所有的DB（p，d）异常点，其也存在着一定不足，也就是阈值和距离值属于常量，并不是动态调整的，其中阈值首先是不会随着单元格的位置不同而产生差异，可以在相关分析中得出，如果边界单元格的第一层邻居主要为三个或者五个，而其他的单元格显示为八个，如果是结合单一的阈值，就可以使得边界处的异常点出现误判。另外距离值也属于固定值，在程序给定这一固定值后，对距离值进行计算，在不同的用户需求分析的时候，也要能够明确尺度差异，需要存在着不同的距离值，且对比不同的距离值之后产生结果的时候，也会促使问题掌握更加透彻。

（2）算法的实际调整

固定阈值对判断会造成一定影响，而造成这些影响的主要原因是边界单元格和非边界单元格之间的差异，因此，对阈值调整的时候，较为有效的方式是判断单元格是否为边界单元格，这一问题解决的时候，主要是利用以下公式解决：

（3）经典单元异常挖掘算法的完善扩展

多维度数据始终是没有问题的。

五、具体实践及效果

为了对算法实际应用效果有效改善，需要在实验的方式基础上开展实际验证，实际数据主要是基于电力企业的2017年～2019年的财务信息和业务数据等收集分析处理，数据属性中主要有52项，其具体的实验目标是监测异常数据。硬件环境Pentium双核2.1GHz，3.2G内存，硬盘为160G，数据库利主要是利用DB2，程序则实验net架构编写。实验的过程也要清理相关数据，将中文和字幕等充分转换为统一编码数值数据，在这一环境下确定相关的目标数据库，随后利用算法挖掘的方式得出具有的实验结果。

在和原本算法相对比的基础上，可以得出新的算法对不同数据操作时间相对减少，平均的节约量主要为3%，新的算法也会得到比较多异常数据点，在实际实施的时候存在着显著的指导作用，利用电力企业的实际应用情况分析，为企业提供更多舞弊行为的审计证据。

六、结语

在基于距离的经典算法扩展的基础上，能够对审计对象多类数据应用的要求有效满足，明确得出满足审计系统的异常数据挖掘算法，这一算法也就能够充分发现异常数据，从而减少损失，同时也能够广泛在相关商务实践活动异常数据挖掘中具体实施。

参考文献：

[1]潘东阳，刘静瑞.基于数理统计的网络运行异常数据挖掘模型构建[J].信息通信，2019，（07）：21～22.

[2]張波，李舸.基于改进聚类算法的Web异常数据挖掘软件设计[J].现代电子技术，2019，42（08）：73～76+81.[3]张凯斐，刘继华，张菊芳.大规模高维数据集中局部异常数据挖掘算法[J].微电子学与计算机，2018，35（03）：116～119+124.

[4]向桢，向守兵.基于模糊遗传算法的数据库异常数据挖掘[J].控制工程，2017，24（05）：947～951.[5]马宁，廖慧惠.云计算环境下频繁出现异常数据挖掘方法研究[J].赤峰学院学报（自然科学版），2017，33（03）：31～32.

[6]王乐，王芳.数据库异常数据的检测仿真研究[J].计算机仿真，2016，33（01）：430～433.

作者简介：

毛玲玥，供职于浙江浙能富兴燃料有限公司，中级审计师。