基于机器学习的非现场审计模型研究
2018-11-02王向阳胡璟懿
●王向阳 席 斌 胡璟懿 匡 尧 李 巍
一、机器学习是非现场审计发展的必然趋势
非现场审计,又称数据式审计,是指审计人员以系统和网络为基础,以非现场的方式持续收集与整理被审计对象业务经营管理的数据和资料,建立面向数据的审计模型,挖掘审计线索,实现远程审计程序。与现场审计不同,非现场审计是在非固定的工作地点,依托信息技术手段对底层数据进行归集,建立数学模型进行分析,以发现趋势,分析审计线索,实现审计目标。
由于非现场审计的所有数据都来源于审计对象的业务数据,且审计监管对象并非具体的某一个企业或法人机构,而往往是对发生在不同主体的多个相同类型的业务数据进行分析,所涉及的数据量庞大,具有大数据的特点。因此,非现场审计的工作方式往往无法简单通过审计人员的肉眼加以辨别和分析,而是由审计人员依据审计客观规律和实际经验,科学合理地设定判断条件,建立数学模型,对海量的底层数据进行统计分析。因此,传统的审计方法显然无法胜任非现场审计的要求,有必要寻求新的工具手段。
机器学习主要是基于数据分析获得规律,并利用规律设计一套让计算机自动“学习”的算法,对未知的数据进行预测。与传统分析工具不同,机器学习是基于客观经济现象和实际规律,利用统计学习理论,从海量的数据中寻找数据之间的联系,并据此实现事先确定的工作目标。传统的审计模型是通过业务专家的经验梳理出业务检查点 (依赖于业务专家的经验),然后通过对每一个检查点编写对应的检查规则(计算机程序)来进行检查,固化的检查规则存在无法动态扩展、业务场景的覆盖度低、依赖于业务专家的经验等问题,需要通过构建一种新型的智能审计模型,具备对审计疑点的识别能力,对业务变化的自适应能力,能够动态被检查数据中存在疑似问题,而基于机器学习技术的审计模型能够很好地解决这类问题。
二、非现场审计机器学习方法体系
非现场审计范围主要涉及企业会计信息、经营业务、公司管理以及公司内部控制四个方面,即对会计信息的真实性与完整性、对经营业务的合规性、对公司经营管理的有效性、对被审计对象内部控制的健全性进行评价。在非现场审计中,主要采用历史经验形成审计系统规则并分析审计线索,锁定审计异常点,对审计异常预警,实现审计目标。而审计线索主要是对审计资料或信息的异常查找,也就是说非现场审计中主要针对 “审计数据异常与否”、“审计流程合规与否”进行分类分析。基于此,在机器学习中,用于分类的模型主要有决策树、朴素贝叶斯算法、神经网络、SVM以及Logistic回归模型等。本文结合业务分析案例,选取两种主要分类分析方法朴素贝叶斯算法和Logistic回归模型进行讨论。
(一)朴素贝叶斯算法
朴素贝叶斯算法是贝叶斯分类中最简单,也是最为常见的一种分类方法,其基本表达式如下:
一般而言,朴素贝叶斯算法的判断标准:根据条件概率p(y|x)的大小来判断待分类项归属于哪个类别。在条件概率的比较过程中,朴素贝叶算法表达式的分母在同一业务形态的比较中都是一样的,因此,选取朴素贝叶斯算法表达式为:
其算法步骤如下:
①设x={a1,a2,…,am}为一个待分类项,而每个a为x的一个特征属性;
②有类别集合 C={y1,y2,…,yn},计算 P(y1│x),P(y2│x),…,P(yn│x);
③如果 P(yk│x)=max{P(y1│x),P(y2│x),…,P(yn│x)},则x∈yk。
根据上述算法步骤,我们可以将具体某类审计过程总结为如下三部分:
第一部分是准备阶段,该阶段需要确定具体的某项审计业务的特征属性,并对不同的属性进行划分,形成一个样本集;第二部分是分类器训练阶段,这一阶段主要是计算上述分类中的每一个类别在样本中出现的频率,以及每个类别下每个特征属性的条件概率;第三部分是分类判断预测阶段。这一阶段主要是使用分类器,对待分类项进行分类统计分析。
(二)Logistic 回归模型
1、定义及算法模型。Logistic回归是研究二分类变量y与一些影响因素(x1,x2,…,xm)之间关系的一种概率型回归方法。假设有向量x=(x1,x2,…,xm),由m个独立变量组成,则条件概率P(y=1│x)=p则是这个二分类变量相对于时间x发生的概率。用Logistic回归模型表示如下:
其中 g(x)=w0+w1x1+…+wmxm
对该模型进行变形,可以得到最终的Logistic回归模型,其表达式如下:
2、算法步骤
①设x={a1,a2,…,am)为一个待分类项,而每个a为x的一个特征属性;
②对二分类事件中频数进行统计,然后计算出概率P的值;
③利用极大似然估计方法对模型的参数w0、w1、…wm进行估计;
④利用估计的模型进行分类预测。
在上述算法步骤中,最重要的是步骤三,即利用极大似然估计方法进行估计,其基本思想是对上述待分类项挑选参数θ使其满足下面的方程:
L(x1,x2,…,xm;θ^)=maxL(x1,x2,…,xm;θ)
三、基于机器学习的固定资产卡片实证研究
数据是企业的关键主数据,在非现场审计中资产数据的异常,不仅反映数据质量问题,同时也反映了资产管理问题,另外资产数据应用面广,数据异常将影响设备大修技改维护、财务处理、资产决策分析等,因此数字化审计从资产卡片异常识别入手,对保证数字化审计基础扎实意义重大。本文针以固定资产卡片为例,结合机器学习算法构建智能审计模型进行分析。
(一)固定资产卡片机器学习的建模流程
在建模之前,构建机器学习的建模流程,建模流程主要包括数据收集及特征属性提取、数据清洗、分类器选取与模型建立、分类结果评估等四个方面。具体表现如下:
数据收集及特征属性提取:从业务系统中获取固定资产卡片数据,并进行特征属性数据的提取,在数据收集时尽可能地从数据样本尽可能多的覆盖各种业务场景、数据量尽可能大等方面进行数据收集工作;
数据清洗:对获得的固定资产卡片进行筛选,将包含了不合理数据的固定资产卡片剔除;将剔除后的数据分为离散型数据和连续型数据,并对不同的数据类型采用不同的方法进行数据预处理:对于连续型数据进行归一化处理,对于离散型数据进行变量数据化处理;
分类器选取与模型建立:将预处理后的数据按照比例分为训练集和测试集,利用训练集的数据来训练模型,利用测试集来评价模型,最终获得评估模型,并不断对评价模型进行优化和训练以获得更高准确率;
分类结果评估:将训练模型进行对比分析,比较它们之间的预测精度从而来选取可靠的模型,然后对待分类样本进行分类预测。
图1 固定资产卡片机器学习的建模流程
(二)审计数据采集、预处理以及训练集构成
1、数据收集及特征值属性选取。样本数据来源于A公司辖属的6个区域资产卡片数据,数据样本量共计76万多条,涵盖了A公司电力主业的全部资产。结合规则查询的关键属性与资产卡片自身的业务特点,对固定资产业务从资产异常进行分析可以分为资产归类异常、数据完整异常、资产管理异常、资产数据异常,经过分析选取的特征值如下表:
表1
经过综合分析确定12个特征值:资产编码、资产类别、资产变动方式、资产状态、计量单位、数量、电压等级、预计使用年限、使用保管人、资产原值(初始购置价值)、账面净值、累计折旧额。将特征数据划分为两类:离散型数据和连续型数据,划分如下:(1)离散型变量,亦称作文本型变量、分类型变量或枚举型变量,呈现离散状态。包括资产类别、资产描述、资产变动方式、资产状态、计量单位、电压等级、使用保管人;(2)连续型变量:在一定区间内可以任意取值,而且数值是连续不断的,包括数量、预计使用年限、资产原值、账面净值、累计折旧额。
2、数据清洗。首先,依据现实情况及业务自身特点,由于单一错误数据直接反映了资产数据异常,可将清洗数据直接作为资产数据异常结果处理。故对不合理的样本数据进行合理筛选与剔除:剔除资产原值≤0;剔除累计折旧 <0;剔除账面净值 <0;剔除资产原值 — 累计折旧额 — 账面净值 <0。数据清洗后有效样本数据量为497348个。
其次,在离散型变量中,针对资产类别、资产变动方式、资产状态、计量单位、电压等级这些分类型变量,采用数据型代替转换,以便计算机便于识别。例如:资产状态分类为待报废、报废、在运、退运、未投运、库存备用、现场留用这7个状态,可以利用数字1—7来进行代换。针对文本型数据,例如资产描述,首先需要进行关键词分析,结合异常特征定义特征值的关键词后,进行数据型代替转换。
3、训练集构成。按照机器学习中样本数据的一般规则,将清洗后的样本数据分为80%训练集 (训练集计397878条数据)和20%测试集(测试集计99470条数据),利用训练集来训练模型,利用测试集来评价模型的分类效果的优劣性。
(三)基于机器学习方法分析
1、基于朴素贝叶斯算法的固定资产卡片异常识别
(1)实验数据说明。针对于连续型变量进行区间化处理,保证变量之间的独立型,然后利用贝叶斯分类器进行训练,根据贝叶斯原理和思想:根据条件概率p(yi|x)的大小来判断待分类项归属于哪个类别。
(2)算法分析过程及分析。利用朴素贝叶斯算法进行建模与预测分析,预测结果如下:
表2 预测结果
通过该算法,可以计算出该模型的识别率
2、基于逻辑斯蒂回归模型的固定资产卡片异常识别
(1)实验数据说明。在连续型变量中,针对于预计使用年限、资产原值、账面净值、累计折旧额可采用极差标准化处理①将样本数据映射到(0,1)区间里,便于二分类处理。
(2)算法分析过程及分析
表2
3、算法对比分析。朴素贝叶斯算法和逻辑斯蒂回归模型的识别率如下图所示:
通过该算法,可以计算出该模型的识别率:
识别率=
图2 两种算法的识别率对比图
在训练样本量从5W增加至50W过程中,对比两个机器学习模型可以发现:
(1)随着样本量不断叠加训练的情况下,两个模型的准确率不断提升。朴素贝叶斯准确率从75.55%提升到83.18%,逻辑斯蒂准确率从81.26%提升到93.14%.
(2)样本从40W逐渐增加到50W的过程中,我们发现这两个模型的准确率处于平稳状态,没有显著变化,也就是说训练样本量达到一定数量时,模型准确率不再显著提升。
(3)样本量能够提升模型准确性,但不是唯一因素,还应该考虑模型算法、特征值等因素。
通过对比,我们发现在准确率方面多元逻辑斯蒂回归优于贝叶斯分类模型,造成这一现象的原因可能是在选取特征方面可能存在一定关联关系,另外连续变量区间化可能比较模糊,不一定能满足业务要求,这些原因都可能使得贝叶斯模型略逊于逻辑斯蒂模型。因此,可以利用多元逻辑斯蒂回归模型自动对固定资产卡片的异常与否进行分类预测。
4、模型结果与优化分析
(1)影响模型准确率的关键是模型算法、特征值、样本数量和质量。从研究成果看出,模型的算法选取对结果准确率有较大影响,对连续型特征变量,逻辑斯蒂模型更优,对离散型特征变量,朴素贝叶斯模型更具优势;特征值的选取对结果准确率影响较大,过度选取不但计算量增加,对结果准确率也有不良影响;机器学习模型的优化,机器学习模型在样本量不断增加的情况下,能够提升模型的准确性,但是当样本量达到一定比例后这种趋势会不明显,需要从模型的算法、特征值等多种角度去继续优化。
(2)机器学习方法可用于替代人工查证或规则查证。从研究成果看出,采用机器学习算法替代人工查证或规则查证解决审计智能疑点识别是可行的;机器学习方法基于历史数据的学习,聚集了历史经验,随着样本数据的成长,比规则判断有更大的成长空间。
四、机器学习在非现场审计中的前景展望
(一)将分类预测机器学习算法用于审计疑点智能识别是可行的
从研究成果看出,利用机器深度学习技术,探索自动识别问题凭证的智能审计方法,通过历史数据的采集、样本建立、机器人训练、训练结果测试及优化调整等,培养凭证错误审计机器人,这种采用分类机器学习算法替代人工查证或规则查证解决审计智能疑点识别是可行的。而且机器学习方法基于历史数据的学习,聚集了历史经验,随着样本数据的成长,比规则判断有更大的成长空间。
(二)机器学习方法用于提升数字化审计能力前景远大
项目的实施,借助信息化等智能先进技术,将有效规范审前调查过程管理,促进审前调查管理机制的落实和执行,提升数字化审计能力,提高非现场审计的工作效率和效果。另外,研究具有通用性,对于后续用于解决项目类别划分、项目投资金额异常等有借鉴意义。■
注释:
①极差标准化处理公式:X’=(X-min(X)/(max(X)-min(X))