基于关联规则的企业财务风险评价研究
2017-02-24林颖华陈长凤
林颖华+陈长凤
【摘 要】 基于关联规则的交互挖掘是以数据挖掘为基础,专门用于解决最小支持度和置信度阈值未知情况下的数据挖掘问题,其最大的特点就在于需要通过实验和调整来探知最小支持度和置信度阈值,最终实现对数据用户需求的有效满足。通过构建的基于关联规则交互挖掘的企業财务风险分析模型,分别对模型的支持度和置信度阈值进行数值设定,进而实现了对企业财务风险指标频繁模式类型数目以及规则数目的挖掘,并以此为基础最终实现对财务指标间规律的探析。未来企业应结合具体财务指标选择对企业财务风险实现多层面、全方位的防范。
【关键词】 关联规则; 数据挖掘; 财务风险; 风险评价
【中图分类号】 F275 【文献标识码】 A 【文章编号】 1004-5937(2017)01-0032-04
对于企业而言,自身运营过程中存在的风险因素能否被准确洞察直接关系着自身的可持续发展,也正是如此,理论界始终关注企业财务风险或预警指标的选择和整体模型的构建,其相关理论研究成果也为企业的持续、健康运营产生了积极影响,但不可否认,传统统计模型过于苛刻的假设条件和繁杂的计算过程也极大限制了理论成果的实践效用[1]。伴随信息技术的快速发展,数字时代的到来一改传统的假设分析方法,更强调大规模数据分析中规律的呈现,这对于企业财务风险评价而言也带来了一种全新的方法,即在充分运用数据挖掘技术的基础上,结合企业发展的动态性,建立更具实效性和实践性的企业财务风险分析和危机预警模型,以确保企业管理者可以及时发现运用过程中存在的潜在风险因素,并采取积极的应对措施。基于此,本文拟在充分分析企业财务风险现状的基础上,以关联规则交互挖掘算法为基本方法、以企业相关财务风险指标挖掘为基本方式,以期探寻隐藏于财务指标体系中的基本规则),从而发现真正引致企业财务风险的根源之所在。
一、关联规则的数据挖掘内涵及运用
数据挖掘,也称为知识发现,即在海量数据中探索隐藏于其中的规律、规则的过程[2]。从其发展过程来看,它最初的思想萌芽于统计学,且发展也以统计学为基础,在计算机、信息技术实现飞速发展后,实现了统计学与数据库技术、人工智能技术等理论和技术的融合,最终实现了数据挖掘。可见,这一知识发现过程的实现有着两个充分条件:一是高性能计算技术,这是实现数据分析的必备技术手段;二是海量数据搜集,这是探索基本规律的必要资料基础。从数据挖掘的使用来看,数据挖掘技术的使用最初始于计算机领域,以IBM为代表的企业率先将其运用于自身的相关产品研发,如IBM Intelligent Miner[3];国内则主要关注于数据挖掘的算法研究,这就导致研究主体以高校和相关科研机构为主,其在实践方面的运用尚不普遍。从20世纪90年代数据挖掘技术出现至今,虽然对其的研究仍是理论界关注的焦点,但在实践领域也有了相当的进展,总体来看,在所有数据挖掘方法中以关联规则的挖掘运用最为广泛。因此,本文也将主要以关联规则数据挖掘方法为基础,将其与企业财务风险分析相结合。关联规则的数据挖掘方法如下:一是Apriori算法,该方法由Agrawal等首先提出,其基本思想是在所建立的支持度-置信度框架下通过迭代运算形成最终所需的频繁模式集,即在对数据库扫描的基础上生成首要A候选集,在此基础上进行支持度计数比较(主要采用Apriori算法),形成频繁集A,此时,候选集的生成将不再是对数据库的扫描,而是数据集A将以自身链接的形式再生成新的候选集B,B仍然采用Apriori算法进行支持度计数比较形成频繁集B。如此反复,直到得出所有长度L(k≥1)的频繁项集L,此时应不再产生新的频繁集项。二是FP-Growth 算法,该方法由Jiawei Han等率先提出,克服了支持度阈值较低时运用Apriori算法对数据库频繁扫描所导致的算法性能下降的缺陷[4]。其基本思想是在Apriori算法基础上引入Frequent Patterns Tree重新保存数据集,这样就避免了对数据库的频繁扫描,且有效缩减了每一条数据传导路径中节点的频繁程度,既强化了数据结构的紧凑度,又为后续生成算法中对FP-Tree的快捷拆分提供了方法保障。
基关联规则的交互挖掘则是以数据挖掘为基础,专门用于解决最小支持度和置信度阈值未知情况下的数据挖掘问题,其最大的特点就在于需要通过实验和调整来探知最小支持度和置信度阈值,最终实现对数据用户需求的有效满足;其常用的方法主要包括以下两类:
一是基于Apriori算法的交互挖掘方法,该方法主要以Apriori算法为基础,试图通过对已挖掘的关联规则的高效运用,从而达到控制候选集规模的目的,这样可以最终实现对数据库测试频率的有效降低。目前,理论界常用的具体方法包括IUA(Incremental Updating Algorithm)和 NewIUA(NewIncremental Updating Algorithm)两类[5]。以IUA为例,对于真正有效关联规则挖掘目的的实现则主要依赖于最小支持度和最小置信度阈值的实验和调整,若数据库始终保持不变则支持度和置信度阈值的变化就会引致关联规则更新,此时可利用已存在的频繁项集实现对新的频繁项集的开发,即采用增量式更新算法IUA,但对于频繁项集的划分容易导致大量无用候选集的产生和有效频繁项集的误删。
二是基于模式增长的交互挖掘方法,该方法的主要思想是通过对已发现关联规则使用效率的提升进而实现对算法效率的改善,其主要改善路径则是控制频繁模式树的重复构建率和减少数据库的重复扫描次数。以Khashei M,Cong et al.[6]为代表的研究者就主张以有效的压缩策略实现对三个频繁模式挖掘技术的匹配,以避免频繁模式的不断增加。
总体而言,伴随关联数据挖掘技术理论研究的丰富,其在社会实践中的运用范围也不断扩大,已经被逐渐应用于零售、金融、电子商务等领域特定产品的研发中。以美国银行为例,其目前对数据仓库和数据挖掘技术的使用增长率已达到15%,同时,还将其充分运用于利润评测模型和风险控制模型的构建中,实现了管理效率的有效提升。
二、基于关联规则交互挖掘的企业财务风险分析指标体系构建
传统财务风险指标体系的构建均建立于评价者或管理者对企业财务风险的自我认知和判别基础上,具有极大的主观性,但基于数据挖掘的财务指标选择更强调指标间的相关性,保障了指标选择的客观性。目前,理论界普遍采用的指标体系通常包括以下方面[7]:
一是对企业营运能力的综合反映,该类指标需要充分反映企业资产的周转状况,进而实现对企业生产、销售等环节效率的准确判断,若经营状况良好则资产运转情况良好,收入也越高。常选用的指标包括针对流动性资产周转状况评价的流动资产周转率、应收账款周转率和存货周转率,以及针对固定资产周转状况评价的固定资产周转率和总资产周转率。
二是对企业盈利能力的评价,该类指标主要与企业长期盈利能力相关,虽然企业短期盈利能力也是投资者关注的主要指标之一,但从财务风险应对角度来看,只有持续的长期盈利能力才能确保企业具备有效风险对抗能力。常选用的指标主要包括毛利率、营业利润率、净利润率、净资产收益率和每股收益指标。这些指标均与企业总利润间呈正相关关系,即企业盈利能力增强,风险的应对能力随之上升。
三是对于企业未来成长潜能的评价,该类指标主要是通过对企业一定时期内经营能力的判断进而形成对其成长潜在空间的评价,即以当前营运、发展状况为评价基础。常选择的评价指标包括总资产增长率、净资产增长率、净利润增长率、每股收益增长率和主营业务收入增长率。这些指标可以在一定程度上反映企业的资本规模扩张速度、负债规模的扩展速度以及经营规模的扩张速度等,进而形成对未来成长潜能的准确、客观评价。
四是对于企业偿债能力的评价,这又涉及短期偿债能力和长期偿债能力的分别判断;对于企业而言,短期偿债能力与未来融资规模、融资成本息息相关,常选择的指标主要是企业的流动比率和速动比率;长期偿债能力则直接关系企业自身的正常运营,若不能按时还本付息则会直接影响企业自身的可持续发展,常选择的评价指标包括资产负债比率、股东权益比率和利息支付倍数三项。
五是对于企业现金流量状况的评价,该类指标直接决定着企业管理决策的制定,且属于动态类指标,应根据实时变化对相关指标进行分析。常选择的评价指标包括经营现金净流量对流动负债的比率、经营现金净流量对净利润的比率以及经营现金净流量对销售收入的比率。
考虑到风险评价过程中对于营业收入、净资产以及现金流的综合考察,在选择具体评价指标時增加营业收入、每股净资产、每股现金流量等评价指标。
三、基于关联规则交互挖掘的企业财务风险分析模型
(一)基于风险视角的层次树构建
企业财务风险评价模型能否真正对潜在风险因素进行准确的识别和程度预测关键在于能否对复杂的风险类型进行深入的解析,即能否准确构建风险概念层次树。从上述财务风险评价指标体系的构建可以明确其对于企业风险的评价是多方面的,既有针对经营状况的盈利、营运、成长方面的评价,也有专门针对企业债务规模、还债能力状况的偿债能力、现金流量方面的分析,这就必然涉及数据的泛化问题,而建立风险概念层次树正好可以利用高层次概念对低层次概念的替换而实现这一技术目标。具体而言,财务风险概念层次树包含4个层级:企业财务风险(最高层)、企业财务风险评价的各个方面(第二层)、企业财务风险评价的综合关键指标(第三层)以及具体概念指标层次(第四层),具体见图1。
从图1可见,这一概念层次树既充分描述了不同层级间概念递进关系,又实现了对低层次具体概念的深入挖掘,且这种挖掘的形式不单局限于指标的综合挖掘,还可以延伸至各个具体模块中进行局部挖掘。在实现了低层次概念深入挖掘的基础上,再进行第三层、第二层概念的挖掘,直至最高层,从而有效寻找指标间的隐藏规律。
(二)支持度阈值的交互挖掘
现以盈利能力为例,假定净利润率和净资产收益率为频繁项集,则在支持阈值交互挖掘策略下层级级别的高低将直接决定支持阈值的大小,即财务指标层级越高,则所对应的最小支持阈值就越大,反之亦反。这也意味着在考虑支持度阈值时必须结合指标的层级综合判断,想要得到最小的支持度阈值就必须着眼于最低级别的指标层,具体见图2。
(三)数据挖掘与结果输出
上述所构建的基于关联规则交互挖掘的企业财务风险分析模型,应对模型的支持度和置信度阈值进行分别数值设定,进而实现对企业财务风险指标频繁模式类型数目以及规则数目的挖掘,以此为基础最终实现对财务指标间规律的探析,现将对具体的操作过程进行描述。
首先,在算法选择上,为避免交互挖掘中因支持度阈值递减而导致的计算过程重复,改用已获取挖掘信息下的新支持度阈值的频繁项,在此基础上以Hash结构为数据储存方式并同时更新支持度阈值下频繁项集的支持度计数,这将有效提高了数据挖掘的效率[8],至于HIUA的算法伪代码在此不做专门描述。具体而言,在初次计算新支持度阈值下频繁项集时,算法仍然采用Apriori算法,可得到相应阈值下分级数据的频繁项集;随后不再采用Apriori算法,分两种不同情况进行处理:若是支持度阈值递增则通过对上一频繁项集的筛选得到进一步的分级数据频繁项集;若是支持度阈值递减则将上一频繁项集设为A,在此基础上计算新阈值下的频繁项集A1,从而得到新的频繁项集项。此时频繁项集项间的自连接将分别得到新的阈值,对这些数据进行再筛选和再组合最终得到频繁项集L,直到L为空时算法结束,此时将生产相应之尺度下的具体关联规则。
其次,在性能测试上,为确保算法的高效性现专门对Apriori算法、IUA算法和HIUA算法进行对比。从前面分析已知,在避免了频繁集的重复更新后,置信度和支持度阈值上升的环境下,IUA算法的速度明显高于HUIA,因此现只对支持度阈值递减的情况进行专门测算。现选择上市公司中ST公司2007—2014年期间的相关财务指标数据,共计34家841条记录;以X轴表示支持度阈值,范围为0.2—0.3,步长0.01,Y轴为计算频繁模式集的运行时间,则不同支持度阈值和置信度阈值下规则数目如图3所示。
四、政策建议
从所构建的具体财务风险评价指标层次树可以看出,对于企业财务风险的防范应该是多层面、全方位的,结合具体财务指标选择企业对于潜在财务风险的防范应基于以下方面。
一是在企业营运风险管理方面,应着重关注应收账款周转速度和存货周转,这主要是因为应收账款的周转状况直接关系着企业资产的流动速度,两者间呈正相关关系,只有资产高速流转才能有效提升企业营运能力;对于存货而言,也是如此,只有周转速度越快才能提高资源的使用效率,也才能最终实现对企业营运能力的提升。
二是在企业盈利能力管理方面,应主要关注每股收益与净资产收益率,这两个指标也是外在投资者最为关注的指标,它们直接与企业的利润回报率相联系,彼此间呈正相关关系,利润回报率越高则每股收益与净资产收益率也越高。
三是在企业成长能力评价方面,应着重关注净利润增长状况和总资产增长速度,这主要是因为净利润增长率直接与企业经营绩效相关,作为对企业未来成长潜力的评判,必然首先关注其经营绩效的高低,企业经营效益越高则意味着成长潜力越大;而总资产增长速度则直接决定于企业一定时期内资产经营规模的扩张速度,资产经营规模扩张越快意味着潜在成长空间越大。
四是在企业现金流评价方面,应主要关注经营现金净流量对销售收入比和资产经营现金流量回报率,这两个指标值的高低直接決定于企业持续经营的状况,如呈现良性、健康循环则现金流必然随之上升,反之亦反。
五是在企业偿债能力评价方面,应主要关注流动比率和现金比率,这可以实现对企业长短期偿债能力的综合判断。流动比率越高则意味着企业到期还款能力越强,而现金比率越高则意味着企业资产流动性越强,企业风险自然也就越小。
【参考文献】
[1] 吴应宇,蔡秋萍,吴.基于神经网络技术的企业财务危机预警研究[J].东南大学学报(哲学社会科学版), 2008,10(1):22-26.
[2] 韩家炜,KAMBER M. 数据挖掘概念与技术[M].北京: 机械工业出版社,2004.
[3] 刘英华,杨炳儒,马楠,等.分布式隐私保护数据挖掘研究[J].计算机应用研究,2011,28(10):3606-3610.
[4] 宋威,李晋宏,徐章艳,等.一种新的频繁项集精简表示方法及其挖掘算法的研究[J].计算机研究与发展,2010,47(2):277-285.
[5] 战立强,刘大昕.频繁项集快速挖掘算法研究[J].哈尔滨工程大学学报,2008,29(3):266-271.
[6] KHASHEI M,et al.Improvement of Auto-Regressive Integrated Moving Average Models Using Fuzzy Logic and Artificial Neural Networks (Anns)[J].Neurocomputing,2009,72(4-6): 956-967.
[7] 李清.基于适度财务指标和遗传算法的财务危机预测模型研究[J].统计与信息论坛,2010,25(2):3-9.
[8] 吕志军,王照飞,谢福鼎,等.基于FCM聚类的时间序列模糊关联规则挖掘[J].大连理工大学学报,2010,50(5):806-810.