农业类上市公司信用风险评估研究
2022-11-16梁文婷李强
梁文婷 李强
(贵州财经大学大数据应用与经济学院,贵州 贵阳 550025)
引言
农业是我国国民经济发展的基础,农业类上市公司是我国农业行业的领头羊,代表我国社会的最高农业生产水平,因此,农业类公司的稳健发展和风险管理水平对于我国经济的稳定发展具有重要意义。我国农业类上市公司因行业特征,可能会遭遇农产品的市场价格波动大、生产周期长、易腐烂变质和自然灾害导致农产品减产等情况,由此产生风险,且农业类公司因抵押物少和季节性资金需求量大,难以得到充足的资金支持。因此,亟需分析农业类上市公司的信用风险情况,为商业银行发放农业贷款提供参考。
1 文献综述
目前,许多学者都进行了关于农业类上市公司信用风险评估的研究,其中使用最多的评估模型是KMV模型和Logistic模型。刘玎琳等用改进的KMV模型测度我国14家农业上市公司的信用风险,研究发现,农业上市公司的资产价值都比股权价值高,说明其发展前景良好;其资产价值波动率整体处于下降趋势;其信用风险大多是先上升后下降和持续下降的趋势,信用状况较差[1]。方焕等建立供应链金融信用风险评价指标体系,用主成分分析法和Logistic模型测度农业类企业风险,预测企业是否违约,研究发现该模型的整体预测准确率为86.27%[2]。李延敏等对47家国家重点农业产业化龙头企业进行KMV模型的测算,研究发现,该模型可以很好地度量信用风险,但这些企业参与农村金融联结的程度对违约风险的影响较小[3]。曾梓铭对58家上市农业中小企业的财务数据进行因子分析,分别构建Logistic模型和支持向量机信用风险评估体系,进行实证研究,发现SVM模型的准确率为94.0%,而Logistic模型为88.8%,且SVM模型的第一类错误率比Logistic模型低[4]。熊桃圆等利用主成分分析和Logistic模型测度农业类上市公司的信用风险,研究发现第一类和第二类错误率分别为42.9%和1.2%[5]。任君等对45家农业上市公司进行因子分析,消除指标的多重共线性,并用向后去除、逐步向后选择方法建立Logistic模型,度量我国农业类企业的信用风险,研究发现该模型总体预测准确率为77.18%[6]。
近几年,许多学者将XGBoost模型运用于金融领域。张培荣构建XGBoost财务危机预警模型对制造业上市公司进行实证研究,选出最重要的几个财务指标,并与Logistic回归模型作对比,发现XGBoost预警模型的预测效果更好[7]。陆健健等构建基于XGBoost算法的金融客户信用评估模型,实证研究发现,相比随机森林和GBDT,基于XGBoost的个人信用评估模型的准确率最高[8]。王行等基于XGBoost的上市公司财务违约预测模型,预测制造业上市公司的财务违约情况,研究表明,相比逻辑回归、支持向量机、决策树和随机森林,XGBoost模型具有较高的预测精度,总体准确率为91.48%[9]。刘斌等用特征工程和SMOTE处理数据,并基于XGBoost构建贷款风险预测模型,研究表明,相比逻辑回归和随机森林,XGBoost模型的准确率高达95%,预测效果最好[10]。
综上所述,大多学者用KMV模型和Logistic模型评估农业类上市公司的信用风险,现有文献虽然用XGBoost模型评估制造业上市公司、P2P网贷平台和个人信用的风险情况,但未有学者用XGBoost模型评估农业类上市公司的信用风险。基于上述内容,本文选取农业类上市公司作为研究对象,建立农业类上市公司信用风险指标体系,基于XGBoost算法构建农业类上市公司信用风险评估模型,探究XGBoost模型是否能有效评估农业类上市公司信用风险,并将实验结果与经典机器学习模型(决策树和随机森林模型)作对比实验,看其在准确度等评价指标上是否更优越。
2 研究设计
2.1 数据来源
本文选取48家农林牧渔上市公司作为研究对象,数据为各公司2020年年报中的财务数据。在48家农业类上市公司中,有2家被标记为ST,有4家被标记为*ST,因此,本文将这6家公司作为高信用风险公司,此时将被解释变量y记为1。与此同时,将其他的42家公司作为低信用风险公司,此时将被解释变量y记为0。
2.2 主要变量定义
本文根据前人学者关于农业类上市公司信用风险指标体系,从5个大类中选取了19个指标,构建新的农业类上市公司信用风险指标体系。从公司基本信息、偿债能力、财务指标、经营能力、盈利能力和成长能力这5个方面来建立农业类上市公司风险信用风险指标体系。农业类上市公司信用风险指标体系建立如表1。
表1 农业类公司信用风险指标说明
3 实证结果及分析
3.1 数据预处理
本文构建的农业类上市公司信用风险指标均在建模前的数据预处理阶段采用标准化处理,本文采用的标准化处理方法为min-max标准化,公式:
式中,x*是标准化后的变量值;x是实际变量值;min是最小值;max是最大值。
本文采用SMOTE算法来处理不平衡数据集。本文数据集共有48个样本,分为2类:42个0类,6个1类。因该数据为不平衡数据,且1类样本过少,所以需要对合并样本进行过采样,复制少数类样本以增加少数类样本占比。
3.2 评价指标
3.2.1 混淆矩阵、准确率、精准率、召回率和f1_score
混淆矩阵是一个误差矩阵,用图表直观的评估监督学习算法的性能。本文以二分类混淆矩阵为基础,介绍各评价指标。
表2 混淆矩阵
准确率(accuarcy)是正确预测的样本数占总样本的比例。准确率的公式:
精准率(precision)是正确预测的正样本占预测正样本的比例。精准率的公式:
召回率(recall)是正确预测的正样本占总正样本的比例。召回率的公式:
f1_score是精确率和召回率的调和平均数。f1_score的公式:
3.2.2 ROC曲线、AUC值
ROC曲线是用图直观的来评估模型好坏,ROC曲线是以真正率(TPR)为纵坐标,假正率(FPR)为横坐标的曲线。重点关注预测后的正样本,并且从正负2个样本集合角度分析。本文ROC曲线采用x轴为1-Specificity,y轴为Sensitivity的曲线。
AUC值是ROC曲线下的面积,是基于ROC衍生的非常好的可量化的评价标准,ROC曲线是越陡峭越好,即AUC越大越好。通常情况下,AUC的取值范围是[0.5,1],是一种评价分类模型好坏的指标。
3.2.3 实证结果分析及对比
本文通过将数据分别进行基于决策树、随机森林和XGBoost 3种农业类上市公司信用风险评估模型的学习和预测,此实验过程是由Python实现。从准确率、精准率、召回率、f1_score、ROC曲线和AUC值等评估指标进行各模型的分析对比。
通过决策树、随机森林和XGBoost 3种算法对农业类上市公司信用风险的评估,得到表3的实验结果。从准确率、精准率、召回率和f1_score 4个指标来看,XGBoost的各评价指标都要优于决策树和随机森林。但总体来说,3种算法的准确率均在90%以上,说明3种算法在评估农业类上市公司信用风险上具有较高的可行性。其中,XGBoost的准确率更是高达97.62%,是3种算法中最适宜评估农业类上市公司信用风险的模型。表中XGBoost的召回率为100%,可能是因为数据太少,且负样本的数量太少,造成分类数据过拟合。
表3 3种算法的实验结果
由基于决策树、随机森林和XGBoost算法的农业类上市公司信用风险评估模型得到的ROC曲线如图1~3所示。其中ROC曲线围成的面积,即AUC值分别为0.9632、0.9813和0.9983。XGBoost比决策树和随机森林的AUC值大,说明XGBoost模型的分类效果最好。
4 结论
本文通过建立农业类上市公司信用风险指标体系,选取2020年48家农林牧渔上市公司的财务数据作为数据集,通过标准化和SMOTE过采样处理,利用决策树、随机森林和XGBoost 3种机器学习算法构建农业类上市公司信用风险评估模型,通过实验分析比较得出,3种算法的准确率均在90%以上,都能有效评估农业类上市公司信用风险。其中基于XGBoost算法的农业类上市公司信用风险评估模型的预测效果是最好的,准确率高达97.62%。通过3种算法的ROC曲线可知,XGBoost模型的AUC值比决策树和随机森林的都要大,说明XGBoost模型的分类效果最好。