APP下载

基于二元选择分位数回归的上市公司信用评估

2016-09-27蒋翠侠黄韵华许启发虞克明

关键词:位数均值位点

蒋翠侠, 黄韵华, 许启发, 虞克明,3

(1.合肥工业大学 管理学院, 安徽 合肥 230009; 2.合肥工业大学 过程优化与智能决策教育部重点实验室,安徽 合肥 230009; 3.布鲁内尔大学 数学系,伦敦 UB8 3PH,英国)



基于二元选择分位数回归的上市公司信用评估

蒋翠侠1,2,黄韵华1,许启发1,2,虞克明1,3

(1.合肥工业大学 管理学院, 安徽 合肥230009; 2.合肥工业大学 过程优化与智能决策教育部重点实验室,安徽 合肥230009; 3.布鲁内尔大学 数学系,伦敦 UB8 3PH,英国)

二元选择分位数回归是二元选择均值回归在分位数框架下的推广,能够更好地揭示解释变量对响应变量在不同分位点处的异质影响,从而可以更加准确地描述与预测二元选择行为。文章基于二元选择分位数回归建立了上市公司信用评估方法,通过数值模拟和实证研究,对二元选择分位数回归与二元选择均值回归的信用评估能力进行了比较。研究结果表明,无论样本内还是样本外,二元选择分位数回归均能够更加准确地评估上市公司的信用状况。

信用评估;分位数回归;二元选择;受试者工作特征曲线

信用评估理论与实践大体经历了由主观到客观、单变量到多变量、线性到非线性、静态到动态的发展过程,其中主要包含线性概率模型、Probit模型、Logit模型、人工神经网络、支持向量机和遗传算法等。Z评分模型是线性概率模型的代表,已成功应用于财务危机、公司破产和违约风险分析中[1]。文献[2]提出了基于市场信息的预测模型,以负债比率和资产价值波动来预测企业的违约概率,并被KMV公司用以建立了KMV模型。Probit模型也称概率模型,该模型采用积分方法寻求违约概率,需要正态性假定,对数据分布特征有着较为严格的要求。与Probit模型不同,Logit模型则通过建立Logit判别函数计算违约概率,且无需正态性假设。文献[3]采用Logit模型对公司破产和违约与否进行预测;文献[4]以工业企业为样本,对Logit模型预测力进行验证,结果表明其判别能力比Z评分模型有明显改进;文献[5]建立我国上市公司的Logit财务预警模型,并与Fisher线性判别模型和多元线性回归模型进行了比较,得出Logit模型的误判率最低;文献[6]建立了门限Logit模型,该模型应用于小企业主信用评分领域,结果表明具有良好的预测效果;文献[7-8]应用人工神经网络进行银行信用风险评估;文献[9]比较了基于不同违约定义的支持向量机在信用风险评估中的效果;文献[10]基于遗传算法对意大利中小企业的破产预测,证明了遗传算法在破产预测中的有效性。人工神经网络、支持向量机和遗传算法属于人工智能法,虽能克服非正态性、非线性等问题,但存在“黑箱”问题(其解释性和透明度不如Logit模型)、过拟合问题、模型的泛化能力需要提升等。

综上所述,不同的信用评估模型与方法有着各自的优点和不足,而二元选择模型(如Logit模型)因具有预测准确和解释性强等特点在实践中得到了广泛应用。然而,已有二元选择模型只是在均值框架下开展研究工作,难以揭示经济行为的异质性。文献[11]提出的分位数回归理论与方法,能够细致刻画在不同分位点处解释变量对响应变量的异质影响,是均值回归的有益补充,目前已被广泛应用于生态[12]、医疗卫生[13]、经济金融[14-15]等领域。因此,有必要将二元选择模型扩展到分位数回归框架下,得到二元选择分位数回归模型,并将其应用于信用评估。

本文建立了基于二元选择分位数回归的信用评估方法,在二元选择分位数回归基础上,分别使用分布函数法与数值积分算法,给出违约概率计算方法;使用判别精度、误判概率、受试者工作特征曲线(receiver operocting characteristic curve,ROC曲线)等评价指标,对信用评估效果进行了客观评价,通过Monte Carlo数值模拟与实际应用,验证了本文建立信用评估方法的有效性。本文基于中国上市公司经验数据实证研究的结果表明,基于二元选择分位数回归的信用评估方法不仅能够得到准确的信用评估结果,而且可以揭示信用影响因素对信用的异质影响。

1 模型与方法

1.1二元选择均值回归模型的信用评估

设第i个样本观测记录为(x1i,x2i,…,xki,yi),其中xi=(x1i,x2i,…,xki)′为由解释变量组成的设计矩阵;yi为可观测的二元响应变量,取值为1或0,分别表示违约与非违约。则二元选择均值回归模型表示为:

(1)

(2)

当F(u)为Logistic分布时,(2)式为二元选择Logit均值回归模型。由Logistic分布的对称性可以进一步得到:

pi=F(xi′β)=exp(xi′β)/[1+exp(xi′β)]

(3)

根据(3)式可以计算出第i个样本的违约概率,从而可实现该样本信用状况的评估。

1.2二元选择分位数回归模型的信用评估

1.2.1二元选择分位数回归模型

二元选择分位数回归模型可以表示为:

(4)

(5)

其中,u为位置参数;σ为尺度参数;p为偏度参数。

根据未知参数后验信息正比于似然函数与未知参数先验信息的积这一贝叶斯参数估计原理可得参数向量β的后验密度为:

(6)

1.2.2信用评估

(1) 分布函数法。由随机扰动项的非对称拉普拉斯分布(ALD)可得:

(7)

给出每个分位点处(τ=τ1,τ2,…,τm)的违约概率,并将这些信息平均最终得到违约概率为:

(8)

(2) 数值积分法。违约概率的计算公式为:

(9)

其中,I(·)为指示函数;Fεi|xi为εi的条件分布函数。通过概率积分(9)式可变为:

(10)

为此,可以均匀地选取若干分位点τ1,τ2,…,τm,则(10)式可以近似为:

(11)

据此可计算出样本i的违约概率Pi,设截止概率γ∈[0,1]对样本i的信用状态进行评估。本文将截止概率γ设置为0.5,大于0.5的样本判为违约样本,小于0.5的样本判为非违约样本。

1.3信用评估效果评价

1.3.1判别精度及误判概率

本文定义了判别精度和误判概率(第一类错误率和第二类错误率)指标用于评估模型的效果,判别精度表示将违约样本判为非违约样本和将非违约样本判为违约样本的和占总样本之比;第一类错误率表示将违约样本判为非违约样本占违约样本总数之比;第二类错误率表示非违约样本判为违约样本占非违约样本总数之比。

1.3.2ROC曲线及AUC值

ROC曲线是在单位正方形中,以击中率(true positive rate,TPR)为纵轴,误报率(false positive rate,FPR)为横轴,描述在不同截止概率下击中率和误报率之间关系的曲线,能用于评价模型判别效果,可避免只考虑单个截止概率的不足。其中,TPR和FPR的计算公式为:TPR=TP/P,FPR=FP/N。TP表示将违约样本判为违约样本的数量;FP表示将非违约样本判为违约样本的数量;P表示实际违约样本总数;N表示实际非违约样本总数。ROC曲线越靠近单位正方形的左上方,表明模型判别效果越好。

ROC曲线能够衡量模型的信用评估效果,但也存在着一定的主观臆断色彩,可以使用其围成的面积构造一个客观指标AUC(area under curve)值。一般地,AUC值越大表明评估效果越好。

2 数值模拟

2.1数值模拟方案设计

考虑一个解释变量x和一个响应变量y,设计的数据生成模型如下:

(12)

2.2数值模拟结果比较

将每一类型样本分为训练集(样本内)和测试集(样本外),样本量分别为100,使用二元选择均值回归模型(采用Logit模型,记为BMR)与二元选择分位数回归模型(记为BQR)进行信用评估。对BQR模型分位点τ分别取(0.1,0.2,…,0.9)9个分位点。从区分力(判别精度的均值)和稳定性(判别精度的标准差)2个角度比较2种模型的判别效果,具体见表1所列。

由表1可知,就区分力而言,不论样本内外,BQR模型判别精度均值大于BMR模型,判别精度均值最高可提高0.703 8%。就稳定性而言,不论样本内外,BQR模型判别精度的标准差都小于BMR模型,判别精度标准差最高可下降1.089%。从总体上看,BQR模型在3种不同数据分布特征下的判别效果优于BMR模型,具有更高的区分力和稳定性,对数据的适应能力更强。

表1 判别精度的Monte Carlo结果比较

3 实证研究

3.1数据选取

为评估我国上市公司信用状况,将信用状态分为违约与非违约2类,且将上市公司是否被ST(特殊处理)来判断违约与否。本文以2006-2014年每年公告的首次被ST的公司和同一年正常公司为研究对象,分别作为违约样本和非违约样本,样本中剔除了金融类公司。ST公告期公布的ST公司是公告期前一年符合ST条件的上市公司,即ST公司在ST公告期前一年发生了“违约”。为了预测公司未来一年违约与否,本文使用T-2期的财务指标数据[22]来建模和预测(T表示ST公告期),例如,对于2014年公布的ST公司(在2013年发生了“违约行为”)和正常公司,使用其2012年的财务数据。对于财务指标,本文从比率结构、偿债能力、发展能力、经营能力、现金流量、每股指标和盈利能力中进行选择。本文数据取自国泰安数据库中的上市公司财务指标分析数据库。

考虑到原始数据中存在较多的缺失值,因此本文首先将缺失值达到10%以上的财务指标删除,其次删除含有缺失值的样本,最终选择了如下19个财务指标:应收账款资产比率X1、营运资金比率X2、主营业务利润占比X3、利息保障倍数X4、资产负债率X5、总资产增长率X6、净利润增长率X7、营业总成本增长率X8、应收账款与收入比X9、应收账款周转天数X10、总资产周转率X11、存货周转天数X12、每股营业总收入X13、每股负债X14、净利润现金净含量X15、全部现金回收率X16、总资产净利润率X17、净资产收益率X18、成本费用利润率X19。样本总数454个(违约样本量和非违约样本量之比为1∶1)。为了消除各个财务指标数据的差异,使模型系数可比,本文对财务指标数据进行标准化处理。实证分析中,将总样本的60%作为训练样本(样本内),剩余40%作为测试样本(样本外)。

3.2实证结果

3.2.1参数估计

本文采用贝叶斯方法,给出BQR模型在(0.1,0.2,…,0.9)共9个分位点处的参数估计结果见,为便于比较,也给出BMR模型(本文采用Logit模型)估计结果见表2所列。

由表2可知,均值模型(BMR模型)对各个指标得到固定的参数估计结果具有显著作用的指标有X3、X5、X6、X11、X13、X14、X17、X19。而二元选择分位数回归模型(BQR模型)能够提供各个指标在不同分位点处的估计值,揭示了各个指标对公司信用状况的异质影响如下:

(1)X11和X13分别在各个分位点处具有显著负向影响和显著正向影响,且影响大小向着两尾方向增大,体现出明显的异质性。

(2)X3和X5仅在极端分位点0.9处不产生显著影响,在其他8个分位点处分别有显著负向影响和显著正向影响,且这2个指标对公司违约的影响也向着两尾方向增大,体现出异质性。

(3)X15在低分位点具有显著正向影响,X17的影响主要体现在中高分位点处且作用方向为负,而X19在中低分位点处具有显著负向影响。

由参数估计结果可知,BQR模型能够揭示各个财务指标在不同分位点处(与不同信用水平对应)对公司信用的异质影响,上市公司可以据此采取更有针对性的治理策略,具体如下:

(1) 不同分位点处具有显著影响的财务指标不同,因此上市公司应根据具体的信用水平关注不同的影响指标。

(2) 对于在尾部对公司信用具有较大影响的指标,应采取“抓两头,促中间”的治理策略,当公司信用水平较高或是较低时应该加强对这类指标的治理强度。

表2 参数估计结果

注:“***”、“**”、“*”、和“·”分别表示0.1%、1%、5%和10%显著性水平下显著。

3.2.2信用评估效果

本文评价了2种模型的判别精度和2类误判概率(第一类错误率和第二类错误率)见表3所列。

表3 判别精度及2类误判概率比较

由表3可知,BQR模型的总体区分能力更强,其判别精度在样本内外分别比BMR模型的判别精度大1.5%和2.2%;BQR模型同时对违约公司和非违约公司的区分能力更强(2类误判概率均比BMR模型的小);且更加稳健。虽然2种模型样本外判别效果都不如样本内判别效果,但BQR模型的样本外判别精度比样本内判别精度降低6.4%,而BMR模型的样本外判别精度比样本内判别精度降低了7.1%,从2类误判概率在样本内外的变化可以看出BQR模型更加稳健。

考虑以上3种指标都是基于截止概率为0.5下的评估指标,为综合考虑所有截止概率下的评估效果,本文给出了2种模型的ROC曲线如图1所示。

AUC值见表4所列。

图1 ROC曲线比较

样本范围BQR模型BMR模型样本内0.96450.9495样本外0.90730.8948

由图1可以看出,无论在样本内还是在样本外,BQR模型的ROC曲线更接近于左上方,表明BQR模型信用评估准确性优于BMR模型。由表4可知,无论样本内还是样本外,BQR模型所得AUC取值均大于BMR模型,说明前者优于后者,与ROC曲线结论一致。

4 结  论

本文研究结果表明:基于二元选择分位数回归的上市公司信用评估方法,在判别精度、稳定性等方面都表现出更加优良的性能;基于二元选择分位数回归的上市公司信用评估方法,能够细致地刻画在不同分位点处各因素对公司信用的异质性影响。在实际的信用评估中,存在众多的信用影响因素(本文只考虑了其中6个因素中19个财务指标),从这些众多的影响因素中识别出关键因素对于信用评估具有重要意义。为此,针对二元选择分位数回归的高维变量选择,是一个重要研究方向,可以为信用影响因素识别提供基本依据。

[1]ALTMAN E I.Financial ratios,discriminant analysis and the prediction of corporate bankruptcy[J].The Journal of Finance,1968,23(4):589-609.

[2]MERTON R C.On the pricing of corporate debt:the risk structure of interest rates[J].The Journal of Finance,1974,29(2):449-470.

[3]MARTIN D.Early warning of bank failure:A logit regression approach[J].Journal of Banking & Finance,1977,1(3):249-276.

[4]OHLSON J A.Financial ratios and the probabilistic prediction of bankruptcy[J].Journal of Accounting Research,1980,18(1):109-131.

[5]吴世农,卢贤义.我国上市公司财务困境的预测模型研究[J].经济研究,2001,57(6):46-55,96.

[6]王磊,范超,解明明.数据挖掘模型在小企业主信用评分领域的应用[J].统计研究,2014,31(10):89-98.

[7]NAZARI M,ALIDADI M.Measuring credit risk of bank customers using artificial neural network[J].Journal of Management Research,2013,5(2):17-27.

[8]王春峰,万海晖.基于神经网络技术的商业银行信用风险评估[J].系统工程理论与实践,1999,19(9):24-32.

[9]HARRIS T.Quantitative credit risk assessment using support vector machines:broad versus narrow default definitions[J].Expert Systems with Applications,2013,40(11):4404-4413.

[10]GORDINI N.A genetic algorithm approach for SMEs bankruptcy prediction:empirical evidence from Italy[J].Expert Systems with Applications,2014,41(14):6433-6445.

[11]KOENKER R,BASSETT G.Regression quantiles[J].Econometrica,1978,46(1):33-50.

[12]刘盼盼,周嘉章,谭常春.城市火灾次数与气象因子的分位数回归分析[J].合肥工业大学学报(自然科学版),2013,36(10):1273-1277.

[13]LI Youjuan,ZHU Ji.Analysis of array CGH data for cancer studies using fused quantile regression[J].Bioinformatics,2007,22(18):2470-2476.

[14]BUCHINSKI M.The dynamics of changes in the female wage distribution in the USA:a quantile regression approach[J].Journal of Applied Econometrics,1998,13(1):1-30.

[15]许启发,徐金菊,蒋翠侠,等.基于神经网络分位数回归的VaR金融风险测度[J].合肥工业大学学报(自然科学版),2014,37(12):1518-1522.

[16]MANSKI C F.Maximum score estimation of the stochastic utility model of choice[J].Journal of Econometrics,1975,3(3):205-228.

[17]MANSKI C F.Semiparametric analysis of discreteresponse:asymptotic properties of the maximum scoreestimator[J].Journal of Econometrics,1985,27(3):313-333.

[18]KORDAS G.Smoothed binary regression quantiles[J].Journal of Applied Econometrics,2006,21(3):387-407.

[19]ZHENG S.QBoost:Predicting quantiles with boosting for regression and binary classification[J].Expert Systems with Applications,2012,39(2):1687-1697.

[20]HEWSON P,YU Keming.Quantile regression for binary performance indicators[J].Applied Stochastic Models in Business and Industry,2008,24(5):401-418.

[21]BENOIT D F,VAN DEB POEL D.Binary quantile regression:a Bayesian approach based on the asymmetric Laplace distribution[J].Journal of Applied Econometrics,2012,27(7):1174-1188.

[22]程建.信用评级体系的定量验证研究[J].经济问题,2009(1):17-21.

(责任编辑万伦来)

Credit evaluation of listed company via binary quantile regression approach

JIANG Cuixia1,2,HUANG Yunhua1,XU Qifa1,2,YU Keming1,3

(1.School of Management,Hefei University of Technology,Hefei 230009,China; 2.Key Laboratory of Process Optimization and Intelligent Decision Making of Ministry of Education,Hefei University of Technology,Hefei 230009,China; 3.Department of Mathematics,Brunel University, London UB8 3PH, UK)

Binary quantile regression,which extends the binary mean regression to quantile framework,can reveal the heterogeneous effect of independent variables on the response variable across different quantiles.Therefore,it can describe and predict the behavior of binary choice more accurately than binary mean regression.In this paper,a credit assessment method of listed company in China is established via binary quantile regression approach.The performance of binary quantile regression model is compared with that of binary mean regression model through simulation study and real data analysis.The results indicate that the proposed method can more accurately evaluate the credit of listed company no matter in-sample or out-of-sample.

credit evaluation; quantile regression; binary choice; receiver operating characteristic(ROC) curve

2015-03-20;

2015-06-25

国家自然科学基金资助项目(71071087)

蒋翠侠(1973-),女,安徽砀山人,合肥工业大学副教授,硕士生导师;

许启发(1975-),男,安徽和县人,合肥工业大学教授,博士生导师;

10.3969/j.issn.1003-5060.2016.07.026

F224.0

A

1003-5060(2016)07-0998-06

虞克明(1959-),男,安徽宿松人,英国布鲁内尔大学教授.

猜你喜欢

位数均值位点
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
五次完全幂的少位数三进制展开
连续自然数及其乘积的位数分析
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
二项式通项公式在遗传学计算中的运用*
一种改进的多聚腺苷酸化位点提取方法
关于均值有界变差函数的重要不等式
遥感卫星CCD相机量化位数的选择