APP下载

贝叶斯分类模型应用于企业运营风险预测

2017-10-13韩丽娜石昊苏咸阳师范学院图形图像研究所咸阳7000西北政法大学商学院西安70063

微型电脑应用 2017年9期
关键词:训练样本贝叶斯概率

韩丽娜, 石昊苏(.咸阳师范学院 图形图像研究所,咸阳 7000; .西北政法大学 商学院,西安 70063)

贝叶斯分类模型应用于企业运营风险预测

韩丽娜1, 石昊苏2
(1.咸阳师范学院 图形图像研究所,咸阳 712000; 2.西北政法大学 商学院,西安 710063)

针对影响企业运营因素多,无法提前预知结果、风险大等问题,采用贝叶斯分类方法,通过选取企业的4个指标作为属性条件,以企业运营状况(破产或良好)作为目标,对40个训练样本进行贝叶斯分类模型学习训练;然后对4个测试样本以及训练样本进行了预测实验,误判率为10%,精确度较高,测试样本也进行了归类。因此应用贝叶斯分类模型能够较好预测企业运营状况,减少运营风险,为尽早预防改善企业的运营管理提供参考。

贝叶斯分类模型; 风险预测; 企业运营状况

Abstract: For the risk of no prediction in advance and many influential factors about enterprise status, Bayesian classification method is selected to predict the risk. By selecting 4 index factors as the property of the enterprise, taking the enterprise operation status (bankruptcy or good) as the target, 40 training samples were input into Bayesian classification model for training. Then the experimental error rate is 10% in the testing of 40 training samples and 4 other samples. Therefore, the Bayesian classification model could forecast the enterprise status in order to reduce operational risk, and provide a reference of early prevention and improvement of the management.

Keywords: Bayes classification model; Risk prediction; Enterprise operation status

0 引言

企业的竞争非常激烈,企业运营风险较大,而且影响企业运营状况的因素又很多,如果能借助某种方法建立一套企业状况的预测趋势模型,通过该模型,企业能够及时发现财务管理中存在的问题,及早察觉财务异常的信号,能够在财务状况异常出现的萌芽状态采取有效措施,改善管理,预防失败,是非常重要的。为了能够判断财务状况出现异常的公司未来最有可能出现的运营风险(破产或良好),本文分别选取了20家发生财务危机的破产企业和20家保持稳定发展的企业作为研究训练样本,通过分析提取不同组别的样本公司的4个财务指标属性,构建贝叶斯分类预测模型,然后对4家未知企业进行企业状况的预测。

1 贝叶斯分类概念

1.1 贝叶斯定理

贝叶斯方法是一种概率统计方法,它计算每一个样本属于每一类的概率,然后将样本划分为具有最大概率的那一类中。即已知样本x的条件下,计算其属于某一类的概率[1]。

1.2 贝叶斯公式中的相关概率

先验概率P(cj):表示训练样本数据前cj(类别)拥有的初始概率。P(cj)常被称为cj的先验概率(prior probability) ,它反映cj正确分类时的经验知识,是根据历史的资料或主观判断所确定的各种事件发生的概率,它是独立于样本的,样本的类别总数用|C|表示[2,3]。如果没有这一先验知识,可以将每一候选类别赋予相同的先验概率。但通常采用用样例中属于cj的样例数|cj|与总样例数|D|的比值来近似表示。如式(1)。

(1)

类条件概率(似然概率):P(X|cj):指当已知类别为cj的条件下,出现所考察样本X的概率,若设X=,则如式(2)。

P(X|cj)=P(a1,a2,…,am|cj),j∈(1,|C|)

(2)

后验概率P(cj|X):指当给定数据样本X,属于cj类的概率。P(cj|X)被称为cj的后验概率(posterior probability),它反映先看到数据样本X后cj成立的置信度。使用贝叶斯公式计算后验概率,如式(3)。

贝叶斯公式:

(3)

由于P(X)对所有类都是相同的,因此在实际的应用中我们只需计算贝叶斯公式分子部分,求取最大值,如式(4)所示,然后就把X分到最大值对应的类ccap中,如式(4)。

P(ccap|X)=max(P(X|cj)P(cj))

(4)

1.3 朴素贝叶斯分类器

由于计算式(2)相当困难,所以采用朴素贝叶斯分类器假设,即在给定样本的目标值时属性之间的相互独立,即式(2)求取的类条件概率就是每个单独属性对应的概率的乘积 ,如式(5)。

P(X|cj)=P(a1,a2,…,am|cj)=

(5)

因此,对于朴素贝叶斯学习方法就是从训练样本中估计不同的P(cj)和P(ai|cj),针对新的待分样本实例,采用公式(4)、(5)进行计算给出分类结果。

如果属性为分类属性,则P(ai|cj)=|sik|/|si|,其中|sik|是D中属性ak的值为xk的ci类的样本个数,|si|是D中属于ci类的样本个数[4]。

如果属性为连续属性,朴素贝叶斯分类方法使用两种方法估计连续属性的类条件概率。一种方法是把每个连续的属性离散化,然后用相应的离散区间替换连续属性值。另一种方法是可以假设连续变量服从某种概率分布,使用训练样本估计分布的参数,一般采用正态分布来表示类条件概率分布[5],如式(6)。

(6)

1.4 应用贝叶斯分类预测企业运营风险

1.4.1 数据准备

本次收集数据为:20个破产企业在破产前两年的年度财务数据和同时期20个财务良好的企业年度数据,数据涉及4个变量。因此训练样本为40个数据,分为2组,1组为破产企业,2组为良好企业;包含4个属性x1表示现金流量/总资产,x2表示净收入/总资产,x3表示流动资产/流动债务,x4表示流动资产/净销售额,采用贝叶斯分类对40个数据进行挖掘分析,针对4个企业的年度财务数据,预测该企业的运营状况[4]。部分企业年度财务数据,如表1所示。

1.4.2 贝叶斯分类预测应用步骤

第一步:读取数据,整理样本数据并归一化,得到归一化后的1组数据20项,2组数据20项;待测数据4项。

第二步:求出各组数据的均值和方差,根据公式(6),构造两类数据的正态分布函数g(x1)和g(x2);

表1 部分企业年度财务数据

第三步:将任意一行待测数据代入两组正态分布函数中,分别求出结果P1(Xi)和P2(Xi)。

第四步:根据公式(4)比较P1(Xi)和P2(Xi)的大小,将Xi分到最大值对应的组别中。

1.4.3 贝叶斯分类预测结果分析

基于40个训练样本,采用贝叶斯分类思想对未知的4家企业数据进行预测,结果是41和43号企业判归为1组,他们为破产企业,42和44号企业判归为2组,他们为非破产企业。为了计算机该贝叶斯分类模型的误判率,将40个训练样本采用此方法进行分类,结果如图1所示。

其中空心圆圈表示1组的20个数据,带实心的圈表示2组的20个数据,纵坐标表示分类组别。我们发现1组有3个数据发生了误判,分别为第13、15、16号数据被盼归到2组,而2组有13号数据发生了误判,被判归到1组,因此1组的误判概率估计值为:3/20=0.15,2组的误判概率估计值

(a) 应用模型1组样本分类结果

(b) 应用模型2组样本分类结果

为:1/20=0.05。设两组的先验概率为0.5,则此贝叶斯分类模型的误判概率为:=0.5*0.15+0.5*0.05=0.1=10%,基本上满足分类预测的准确度。

3 总结

文章论述了贝叶斯分类的基本理论,然后采用贝叶斯方法对企业状况预测问题进行研究。首先选取训练样本,采用贝叶斯方法建立分类模型进行训练,然后将待测数据带入分类模型并求出结果。通过训练样本对该模型进行测试评估,准确率达90%。不足之处该模型中样本数据较少,考虑影响企业状况的因素不够全面,还需要进一步改进。

[1] 郭艳军.贝叶斯网学习方法及应用研究[D].武汉:华中科技大学,2009.

[2] 边平勇,石永奎,张序萍.基于贝叶斯分类器的煤与瓦斯突出强度预测研究[J].佳木斯大学学报,2013,31(6):890-894.

[3] 李爱国,厍向阳.数据挖掘原理、算法及应用[M].西安:西安电子科技大学出社,2012:69-72.

[4] 谢中华.MATLAB统计分析与应用[M].北京:北京航空航天大学出版社,2010,6.

[5] 李尧.基于贝叶斯网络的上市公司财务状况异常变动趋势研究[D].沈阳:沈阳工业大学,2006.

TheApplicationofBayesClassificationModelinEnterpriseOperationRiskPrediction

Han Lina1, Shi Haosu2
(1. Institute of Graphics and Image Processing, Xianyang Normal University, Xianyang 712000, China;2. School of Business, Northwest University of Political Science and Law, Xi’an 710063, China)

TP399

A

2017.05.30)

陕西省教育厅科研计划项目(15JK1776),陕西省计算机教育学会2016教学改革项目(013),咸阳师范学院校级项目(15XSYK047),咸阳师范学院“青蓝”人才工程项目(XSYQL201608)

韩丽娜(1976-),女,陕西富平县人,教授,博士,CCF会员,研究方向:数据挖掘,图像处理。 石昊苏(1976-),男,陕西咸阳人,硕士,副教授,研究方向:物证图像处理,信息管理。

1007-757X(2017)09-0009-02

猜你喜欢

训练样本贝叶斯概率
第6讲 “统计与概率”复习精讲
第6讲 “统计与概率”复习精讲
概率与统计(一)
概率与统计(二)
基于贝叶斯解释回应被告人讲述的故事
人工智能
宽带光谱成像系统最优训练样本选择方法研究
基于稀疏重构的机载雷达训练样本挑选方法
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习