大数据在审计中的应用
——基于人工神经网络的财务报告舞弊识别研究
2021-06-24刘笑然
刘笑然
(上海国家会计学院,上海 200000)
1 研究背景与现状
1.1 研究背景
上市公司财务舞弊事件频发,不仅让投资人蒙受巨大损失,还影响了资本市场的效率。从大量已曝光的财务报告舞弊案件背后来看,任何舞弊行为,如虚增利润和收入,都会使企业的财务信息与非财务信息出现异常。同时,宏观经济、产业环境等外在因素也与企业财务报告舞弊有一定关联。近年来,大数据技术发展迅猛,在商业领域的应用范围也逐步扩大。大数据是指数据容量、获取速度或表示限制了传统关系方法的数据分析能力,需要水平扩展机制来提高处理效率。运用大数据技术可以直接取得与企业经营活动相关的财务和非财务数据,同时通过结合企业的业务流程、财务流程以及管理流程,有效避免数据的孤立以及传递过程中的缺失和递延。此外,财务报告舞弊是一类复杂的经济现象,目前仍是会计研究领域的“灰箱”,而人工神经网络算法适用于规则不完善、不明确、不一致的领域,适宜对财务报告舞弊进行研究。
因此本文旨在利用大数据技术与人工神经网络算法捕获与目标企业舞弊相关的财务信息和非财务信息,梳理基于数据挖掘的舞弊识别框架,为资本市场注入信心。
1.2 研究意义
大数据在财务领域较多地应用于财务共享服务中心的构建、风险预警、管理决策等方面,并取得了较为丰富的研究成果,但是大数据在财务报告舞弊识别方面的应用研究还处于起步阶段。本文借助大数据帮助资本市场找出与财务报告舞弊相关的各项因素,包括非财务因素,帮助资本市场更好地识别出舞弊事件,可以作为大数据在审计研究应用领域的扩展,具有较强的理论意义和实践意义。
1.3 文献综述
中外学者研究发现,很多财务和非财务因素都与舞弊的发生存在联系,比如基于委托代理理论的实证研究表明,媒体报道(Cohen et al.,2017)、监管制度(Chen,2016)等外部治理机制通过监督和约束管理者行为,抑制了企业的财务违规。然而,近年来基于认知评价理论的研究却显示,外部治理会给管理者带来心理压力,如控制权市场(Humphery Jenner,2014)、机构投资者(Fang et al.,2015)、分析师(Brown et al.,2013)等注重财务绩效所带来的外部预期压力,改变了管理者遵守道德与规范的内在激励,提高了管理者财务违规的可能性(Shi et al.,2017)。
综观上述文献,现有文献对影响财务报告舞弊因素的研究主要集中在对财务数据的研究,而非财务因素对企业财务报告舞弊也有重大影响,倘若在原有研究基础上加入对非财务数据的分析,将会对财务报告舞弊做出更精准的识别;除此以外,现有研究还主要集中在Logistic 回归模型等方面,本文借助大数据的思维和方法,选取财务数据以及非财务数据,阐述了各阶段的数据处理和建模过程,帮助资本市场找出影响企业财务报告舞弊的因素,期望本文的分析能够为资本市场的投资决策提供借鉴和参考。
2 研究过程与方法
2.1 研究过程
本文以上市企业财务报告舞弊识别研究为主线,先分析了财务报告舞弊识别研究背景、意义和现有文献以证明研究可行性,再选取相关特征,搜寻相关数据源并运用一系列数据处理方法进行数据处理后,建立数据模型并进行评估和优化,展开数据挖掘工作。
2.2 研究方法
首先收集资料,为研究开展做准备。
其次,分析企业财务报告舞弊相关特征,基于国内外相关文献、现代公司价值评价理论等选取影响财务报告舞弊的企业内部数据指标,再从行业层面、宏观层面、机构层面和媒体层面4 个层面选取与企业财务报告舞弊相关的外部数据指标。
再次,采集与企业财务报告舞弊相关原始数据进行一系列数据处理,通过相关技术处理,为数据挖掘做好数据准备工作。
最后,运用人工神经网络算法等数据挖掘方法对处理后的数据展开分析,得出结论,并指出本研究存在的局限性。
3 研究内容与观点
3.1 原理
将大数据技术运用于财务报告舞弊识别,本质上是基于海量数据进行影响上市企业财务报告舞弊因素的数据挖掘,进而辅助资本市场识别舞弊的过程。基于可获取的企业日常经营管理中产生的大量数据,首先应明确舞弊识别需要提取分析数据的哪些特征,并构建特征变量,同时,对涉及的数据源进行搜集和整理,为数据挖掘提供最基础的原始数据;接着运用人工神经网络等数据挖掘方法,对计算机进行训练,建立预测模型并对模型进行优化,进而挖掘出这些海量数据中可能蕴含的与识别企业财务报告舞弊相关的有价值的信息,为资本市场的投资决策提供支持,提升决策的准确性和科学性,其原理框架如图1 所示。
图1 基于大数据的财务报告舞弊识别框架
本文考虑对舞弊的影响因素时,采用Cressey 的“舞弊三角理论”,即舞弊的三大动因是压力、机会、合理化。
压力因素:企业的经营面临着许多压力,其中最直接的是财务压力,比如连年亏损、资金链断裂等都会使企业陷入困境。
机会因素:企业内部组织架构是否科学和完善、外部监管是否到位,都决定了企业舞弊的机会大小。从企业内部组织架构来看,我国“一股独大”的国有企业,常常因所有者未对其进行有效监督,经营者为了获取自身利益而进行舞弊。从外部监管来看,注册会计师是防止企业财务舞弊的最后一道防线,调查发现,舞弊企业倾向更换会计师事务所,因为新事务所对业务不了解,发现舞弊的概率较小。
合理化因素:合理化是指舞弊操纵者为舞弊行为寻找合理借口的过程,与自身的正直程度有关,难以精确衡量。另外,舞弊行为常常会危害企业利益相关者的利益,从而使企业陷入法律纠纷。
3.2 具体流程
3.2.1 特征选择
3.2.1.1 内部数据
(1)财务数据。财务指标变量的选取对模型的构建起到至关重要的作用。根据科学性、全面性、可比性、灵敏性和可操作性原则,借鉴国内外相关文献的研究,筛选出最具有代表性的财务指标。最终选择分别反映公司营运能力、盈利能力、偿债能力和成长能力的财务指标变量。如存货周转率、净资产收益率、流动比率、净利润增长率等。
(2)非财务数据。非财务数据是指在对企业进行评价时,无法用基本的财务数据得出的指标。现代公司价值评价理论认为,传统财务指标无法完全满足信息使用者对评价精确度的要求,因此有必要加上各类非财务指标以增加整个指标体系的全面性。围绕企业内部组织架构与外部监管、审计意见、法律纠纷、战略调整、股权结构、代理水平、会计稳健性、创新水平、企业文化、社会责任方面选取具体非财务指标。如是否二职合一、会计师事务所出具的审计意见、企业是否与法律诉讼有关、战略变化幅度、股权集中度、第一类代理水平、信息透明度、研发人员、是否具有企业文化介绍、是否履行环境保护等。
3.2.1.2 外部数据
除了企业内部数据,一部分外部数据也是有价值的信息。本文需要的外部数据主要包括四方面:行业层面、宏观层面、机构层面和媒体层面。如产业集中度、国内生产总值、企业信用评级、企业知名度等。由于外部数据大部分是分析报告、政策文件等文本信息,需要通过一定规则将其转换成数值型信息。
3.2.1.3 标记变量
财务报告是否舞弊:公司年度财务报告是否存在舞弊,是为1,否为0。
3.2.2 数据来源
影响企业财务报告舞弊可利用的数据来源广泛,包括内部数据和外部数据两种类型。内部数据主要包括来自于XBRL、SAP、ERP、财务云等平台的年报数据。外部数据主要包括来自国家统计局的数据,来自国家政府机构及专业市调组织的行业报告等。同时,借助大数据处理技术和方法实现对获取数据的规范化处理,针对性地对影响企业财务报告舞弊因素的识别提供有力的数据支撑。
3.2.3 数据处理
3.2.3.1 数据采集
数据处理的第一步是数据采集。本文的数据来源共分两类:内部数据和外部数据。这两类数据经过不同的途径得以采集,其中内部数据通过企业管理平台如SAP、ERP、ARIBA 等软件接口调用数据流收集,外部数据(例如行业报告、研究报告等) 则通过数据库或者Python 等软件挖掘出有价值的各种信息。此外,部分数据为文本、音频、视频数据,需要经过利用自然语言词频处理等方式量化成数值型数据。此时,得到的数据集是分散、无序的。
3.2.3.2 数据归一化
为了提高模型的精确度,本文对数据进行归一化处理,即将每个变量的取值范围限定在[0,1]之间,以减少数据的变动范围,提高模型学习训练效率。数据归一化公式是X=(x-min)/(max-min)。
其中,x 为归一化前某变量取值,X 为归一化后某变量取值,min 为该变量的最小值,max 为该变量的最大值。
3.2.3.3 数据存储
第三步,本文将归一化处理后的数据以各种维度存储至内部服务器,以便之后数据处理和分析。
3.2.3.4 数据预处理
本文的数据预处理主要包括缺失值处理和异常值处理。对于缺失值处理,由于直接删除缺失值可能会出现信息浪费,进而导致整体估计结果有偏差,本文选用插补法进行缺失值的填充,主要包括回归插补法和多重插补法。对于异常值处理,一般利用单变量散点图或者箱线图识别出异常值,然后分析异常值出现的可能原因,判断异常值是否需要删除。
3.2.3.5 数据集学习和训练
经过一定规则预处理的数据清洗已经逐步形成了有效的数据集,可以进行模型的学习和训练。本文从数据集中随机抽取70%作为模型的训练数据,剩余30%作为测试数据。得到训练集和测试集之后,验证训练集和测试集中因变量的取值分布是否类似,如果两者的分布较为相似,符合模型的基本结构,才可以进行模型的训练。
3.2.4 建模
数据处理后,已经得到建模所需要的合规数据,接下来就是利用机器学习的方法对计算机进行训练,进而建立预测模型。预测一家企业财务报告是否舞弊,是机器学习中的分类问题,针对分类问题可以选择的算法有人工神经网络算法、决策树分类法、朴素贝叶斯分类算法、基于支持向量机、k-最近邻法等。本文选择实务中常用的人工神经网络算法建立预测模型。
然后利用人工神经网络的算法在测试集和验证集的基础上对计算机进行大量训练,进而建立预测模型,此时会得到模型的训练集准确度和测试集准确度,该准确度可以衡量模型预测企业财务报告是否舞弊的准确性。
3.2.5 模型评估
利用混淆矩阵的方法对模型进行评估,以提高决策的准确度,减少模型中误差。
3.2.6 模型优化
优化模型,提高模型的预测精确度。观察目标企业的外部数据、财务数据以及非财务数据与目标企业财务报告是否舞弊之间的关系,剔除相关程度低以及不相关特征量并重新建模,提高结果精确度,达到模型优化的目的。
3.2.7 得出结论
经过上述步骤后,最终建立起来的预测模型会告诉我们输入的各个特征因素对于影响企业财务报告舞弊的重要程度排序,我们会清楚看到哪些因素对于企业财务报告舞弊预测有重要作用,哪些因素预测能力稍弱,从中得出的结论可能会超出我们的常规认识,发现我们之前不知道的或者相反于以前认知的有价值的信息,比如:结论可能会告诉我们一家企业信息透明度低,则该企业发生财务报告舞弊的可能性会非常高,或者我们所熟悉的盈利能力和偿债能力等传统财务指标对于企业是否存在财务报告舞弊的解释力度很弱等,这些新的信息可能就会很大程度上辅助资本市场对企业是否舞弊做出更加科学准确的预测。
4 研究结论与启示
研究发现,大数据可以辅助资本市场对企业财务报告舞弊进行识别。首先,大数据能够为企业财务报告舞弊的识别提供海量的数据,大大节约了舞弊识别的相关数据获取时间,显著提高效率;其次,大数据为企业财务报告舞弊识别提供数据分析,减少主观判断,将风险控制在最小,保障资本市场的决策质量;最后,大数据可以降低企业财务报告舞弊识别中的人力成本以及相关设备的购买、维护和后续修理费用,控制舞弊识别成本。因此,资本市场应该适应社会的发展,积极利用大数据带来的优势,并推进舞弊识别中内部数据与外部数据的深度融合,充分发挥大数据的支持作用,提高舞弊识别效率,以促进资本市场更好更快发展。
同时,本文不可避免地存在一定的局限性,仍有进一步研究的空间。①由于时间有限,本文未能通过全面的数据分析为本文观点提供经验支持,只在理论层面进行了逻辑推演和阐述。②由于财务共享等技术正处于发展阶段,本文所涉及的部分数据获取平台可能尚未成熟。③由于大数据环境下可选择的指标来源广泛,本文难免存在指标覆盖程度不足的问题。