数据挖掘技术在管理会计中的应用
——基于破产风险预警视角
2019-10-11李可童
李可童,陈 力
(1.江西财经大学 会计学院,江西 南昌 330013;2.广东金融学院互联网金融与信息工程学院,广东 广州 510000)
引言
现代管理会计除制定企业财务计划、提供企业财务报告、负责业绩考核等工作外,还需高度融入管理决策,帮助公司制定、落实有关的发展战略。与财务会计类似,管理会计的计划与决策在很大程度上也需要遵循会计基本假设。作为四大基本假设之一,持续经营假设假定企业不会面临破产和清算,即每个企业的未来都是可预见的。然而,在实际情况下,因为企业处在不确定性的外部环境,在一些压力下很可能会面临破产的境地。破产风险是企业经营过程中最重要风险之一。管理会计对于企业是否可能面临破产的评估和判断显得尤为重要。通过预测模型帮助企业规避风险具有重要意义。
1 管理会计概念
创造与维护价值作为管理会计的核心内容是公司实现业务和财务整合。管理会计管理成本、控制各种风险、制订和实施可行的发展计划和绩效考核系统、深度参与决策,最终目标是帮助企业实现可持续发展和长远的效益。[1]与传统财务会计不同,管理会计经过剖析运用企业各类数据,给公司不同级别的员工提供相关的信息借鉴与参考,给公司日后的发展方向以及战略决策提供依据。管理会计的职能不仅包括核算、分析、考核和反馈等基础性工作,更包括对将来的预测、决策和企业发展规划方案等。
2 数据挖掘及其应用
2.1 数据挖掘定义
数据挖掘是指在海量数据中通过各种算法和工具按照目标寻找并整理出所需信息的一种技术,使数据转变为价值成为可能。
2.2 数据挖掘过程
数据挖掘就是从大量数据(包括文本)中挖掘出隐含的、未知的,对决策有潜在价值的有关系、模型和趋势,并运用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程;是利用各种分析工具在海量数据中发现模型和数据之间关系的过程。过程如图1所示。
图1 数据挖掘实施流程
(1)定义数据挖掘的目标
认真分析应用领域,围绕用户痛点和难点梳理需求,确定预期目标和效果。
(2)数据取样
围绕目标首先需要开展数据采集、取样工作。围绕目标按相关性、可靠性、适时性、准确性、最新性的标准从业务系统中抽取相关的样本数据子集。
(3)数据探索
为保证取样数据的准确性,便于探索出数据的规律性,通过数据探索环节对数据进行异常、缺失分析等,以获得对事物的理解和概念。
(4)数据预处理
数据探索基础上对采样数据通过降维、筛选、变量转换、坏数据处理等预处理,为下一步快速准确模型构建和保证预测质量做好准备。
(5)模型构建
根据分析出的类别通过适合的挖掘分析工具实现算法(模糊神经网络、支持向量机,分类回归树等)构建能够可靠预测结果的模型。
(6)评估
对于预测模型可以通过测试集等来验证和评估模型是否贴切、准确、实用、可靠,是否趋向实际情况。
2.3 数据挖掘应用
(1)目标确定
本次主要研究分析信息技术类中小型企业抗破产风险能力,具体工作是通过数据挖掘技术对企业财务指标和破产风险间具有的关系展开深层次分析,构建企业破产风险预警系统,辅助企业经营决策。
(2)数据取样
采集取样前要思考:数据源是不是可用?选用的数据和挖掘目标是不是存在关联性?数据的质量怎样保障?数据在某个范围内是不是具有代表性?应该选择多少样本?怎样对数据展开类别划分等?
为了保障样本数据质量,将研究范围锁定在新三板中信息技术类中小型上市公司,同时把这些样本公司在2017年的年报数据作为数据源展开分析。
(3)数据探索
为进一步提升样本数据的质量,本文采用缺省值分析、周期性分析以及交叉验证等分析方法对数据展开分析与验证。
(4)数据预处理
数据预处理涵盖四个过程:其一是筛选数据,其二是清理不合规数据,其三是对数据进行归纳整理,其四是对数据展开变量转换。首先选出财务报告中的利润表、资产负债表以及现金流量表中报表中的重要指标,随后对选取的数据展开缺省值分析、标准化处理等,进而将样本数据补全。针对样本数据进行归纳总结,新三板上市公司的公开财务报表中包含大量财务指标,从中选取一些典型的指标如资产负债率、流动资产周转率,销售收入增长率,现金获利指数等,在减少工作量的同时,还更加具有针对性。根据定性判定结果,运用正态分布对数据展开检验,最终确定衡量指标,具体参见表1。随后,再对数据展开变量转换,把各指标的数值转变成类别变量。通常而言,转换的方式很多,文章选择一个相对简便的方法展开转化,也就是根据数值间的距离展开转换。譬如,公司成立的年限,0-3年内的用1表示,4-8年内的用2表示,9-12年的用3表示,13-16年的用4表示。
表1 关键财务指标
序号 项目 指标 指标描述 类型4 运营能力 流动资产周转率一定时期主营业务收入净额/企业流动资产平均占用额数值变量5 盈利能力 净资产收益率净利润/平均所有者权益数值变量6 发展能力 销售收入增长率本年销售收入增长额/上年销售收入数值变量7 盈利质量 现金获利指数数值变量8 破产风险 破产风险系数经营现金净流量/ 净利润破产风险系数 类别变量
(5)模型构建与结果分析
关联规则能够衡量同一事件中各个项目间的关联程度。本次采用关联规则方法分析,可以定义所有财务指标集合T={成立年限,资产负债率,流动比率,流动资产周转率,净资产收益率,销售收入增长率,现金获利指数,破产风险系数}为项目集合,每次选用的财务指标集合i1称为一个事务,所有的事务I={i1,i2,...,im}表示所有事务的集合,并且i1,i2,...,im是T的真子集。一个关联规则可以由一条蕴含式表达:M→N。M,N属于T的一个真子集,同时二者间不存在任何交集。M称作前件,N是后件。在关联规则中,支持度、置信度都是非常重要的指标:支持度=(M,N).count/I.count;置信度=(M,N).count/M.count。上式中,(M,N).count表示在I项集中同时含有M与N的个数,M.count表示在I项集中仅包含M的个数。关联规则其实就是在集合中找到能够满足支持度、置信度要求的各个规则。
衡量关联规则可能性高低的指标是支持度,倘若某个规则的支持度比较低,表明M,N事件同时发生的可能性就比较小;倘若某规则的置信度很低,说明从M推导出N的难度比较大。按照P(N/M)=P(M,N)/P(M)公式能够推导出P(M,N)=P(N/M)×P(M)。其中,P(N/M)表示置信度,P(M,N)表示支持度,通过这个公式可知,无论哪个关联规则,都应满足的条件是置信度不能低于支持度。挖掘关联规则其实就是在集合中找出符合如下要求的一些规则:其置信度、支持度都不能低于最小阀值(minsup,minconf)。阀值的取值由用户决定,根据支持度=(M,N).count/I.count,置信度=(M,N).count/M.count,首先要找到一个集合Q=M∪N,它满足Q.count/I.count〉=minsup,其中Q.count表示在I项集中含有Q事件的数量,随后从中找到M→N,它满足:(M,N).count/M.count〉=minconf,且M=Q-N。类似于Q的集合被称做频繁项目集,假定Q中有r个元素,那么频繁项目集就为r-频繁项目集,其属于T的一个子集。挖掘关联规则的整体过程可归纳成:其一,按照最小支持度列出每个频繁项目集;其二,让频繁项目集与置信度形成强关联规则。能够根据指定的minsup与minconf与找寻出频繁项目集以及形成的强关联规则进行交互,并借助这些交互对结果展开综合评估。
现阶段而言,关联规则挖掘的常用方式是Apriori算法,其原理为:在r-频繁项目集中产生(r+1)-频繁项目集,随后再推出(r+2)-频繁项目集,依次类推,直到全部产生,最后找到其中存在的关联规则。[3]
2.4 建模仿真
常用数据挖掘建模仿真工具有Rapid Miner,IBM SPSS Modeler,Oracle Data Mining,Weka,TipDM等,其中TipDM已集成数十种预测算法和分析技术,基本覆盖了国外主流挖掘系统支持的算法;支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理);预测建模(参数设置、交叉验证、模型训练、模型验证、模型预测);聚类分析、关联规则挖掘等一系列功能,是国内最好的数据挖掘建模仿真工具之一。关联规则算法包括Apriori,FPTree,灰色关联法等,其中常用Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。
本次研究选用TipDM数据挖掘在线建模平台,采用Apriori算法进行关联规则的挖掘。[4]
(1)模型输入
模型输入包括两部分,一部分是建模样本数据输入,另一部分是建模参数的输入,建模参数设置表2。建模样本数据见表3,为了说明问题,只是列举了部分样本。
表2 Apriori关联规则建模参数
(2)仿真过程
为建模仿真过程如图2所示。
图2 仿真过程
仿真过程说明如下:
1)登录TipDM平台,在方案管理页面中,新建方案或者打开一个已建方案。
2)切换到数据管理页面,上传信息技术类科技企业财务样本数据文件。
3)选择Apriori关联规则挖掘算法进行模型构建。
4)对挖掘的关联规则进行分析。
(3)结果分析
为了更好的分析支持度对规则数量所造成的影响,需要对其他指标进行固定,故将置信度设为0,作用度设成1,通过测试得到:如果将支持度的最低值设成0.2,其对规则数量所产生的影响最高,所以,本文设定其值为0.2,即minsup=0.2。同理,置信度的最低值为0.4,即misconf=0.4,作用度的最低值是1.5。把破产风险变量当作后件,其他变量作为前件,通过多次的分析,得到了如表2所示规则。每个规则都明确指出在前件发生时所对应的公司破产的风险系数,其中a表示非常高,b表示较高,c表示正常,d表示较低。下表列出几个关联规则:
表4 样本关联规则
根据挖掘得到的上述规则,现金获利指数、净资产收益率是信息技术类中小型企业破产风险高低的关键因素。现金获利指数低于0.2以下,净资产收益率低于10%的企业处于破产风险高的阶段。
为了验证本次研究成果,笔者实地调研和访谈了一些广州市信息技术类企业的经营负责人和财务经理,发现很多企业主有风险管控意识但缺乏有效监控方法,对现金获利指数和净资产收益率概念比较模糊,笔者根据企业主提供的财务报表,会同企业财务经理一起计算企业资产负债率、流动比率、流动资产周转率、净资产收益率、销售收入增长率和现金获利指数等指标,发现经营状况比较好的企业的现金获利指数和净资产收益率比较高,而现金获利指数和净资产收益率很低或为负数的企业的经营状况都比较恶劣,处于破产风险高的阶段。
3 结论
数据挖掘工具并不能明确关联规则的具体内涵,要想高效准确地使用挖掘工具确定适合的关联规则,相关人员除了具有大量的从业经验之外,还应该对数据有更为全面、正确的理解,同时还能结合公司的具体情况对规则的价值展开分析,在实践中赋予关联规则新的生命力。实际应用中,某些事项或许在表明上并无任何关联,但其关联规则的置信度、支持度等指标值可能比较高,针对此种情况,就应该由专业知识、从业经验等各个角度来评估其仅仅是个偶然还是确实具有内在关联;此外,也可能有一些事项在表面上具有较大的关联,但是关联规则中的指标值却比较低,这时候也应该对其展开分析与评估。因此,关联规则的挖掘其实仅为第一步,后续对规则的理解才是最为重要的,只有对关联规则有准确的理解,才可以让其作用得到最大程度的发挥。
信息技术类中小型企业由于规模小、竞争激烈、产品生命周期较短等特点,其存在的投资风险也较其他行业高,对应的融资难度也相对较大;并且需要投入大量资金用于研发费用,这在很大程度上削弱了公司的盈利能力,进一步加剧了其在偿债方面的压力。所以,信息科技类小微型企业的抗风险能力值得深入探讨,风险管理自然而然成为管理会计的首要任务。随着现代科技的不断进步,数据分析和挖掘发展迅猛。只有挖掘出其中的关联规则,才能更好的找出对公司发展有利的信息,构建风险评估体系,方可全面提高企业的核心竞争力,才能在企业破产风险较高时,及时做出战略调整,保证企业可持续发展。[5]