APP下载

基于知识图谱的企业财务风险预警模型构建

2023-07-07汪新宇白咸芳

关键词:财务危机图谱实体

汪新宇, 白咸芳

(沈阳化工大学 经济与管理学院,辽宁 沈阳 110142)

我国应急管理体系逐渐完善,目前的应急管理机制及应急管理预案对国内发生的重大突发事件发挥了较好的作用。应急预警是应急管理工作的第一重要任务,预警的及时性与准确性直接影响应急管理工作的整体效率,而预警效果直接取决于预警模型的设计。目前人工智能与大数据发展迅速,各种遥感卫星、传感器等提供了丰富的数据源,因此提高数据整合能力,助力应急预警机制的设计,对完善我国应急管理体系具有重要意义。

知识图谱于2012年由Google正式提出,它融合了多个学科的理论与方法,以符号形式描述物理世界中的概念及其相互关系,广泛应用于智能搜索、深度问答及社交网络等多个场景。当前,知识图谱在金融、医疗、情报等领域发展相对较为成熟,但在应急管理领域,多是针对应急处置、应急知识图谱构建的相关研究。杜志强等[1](P1344-1355)构建了自下向上和自上向下相结合的自然灾害应急知识图谱。李泽荃等[2](P94-100)构建了多源异构数据的应急知识图谱,助力应急领域知识的形式化表达。刘永立等[3](P144-150)利用数据融合技术,构建了火灾及耦合灾害知识图谱,并建立了多部门应急处置预案模型。邱芹军等[4](P1875-1891)构建了面向灾害应急响应的地质灾害链知识图谱。刘政昊等[5](P137-151)构建了面向应急管理的金融事理知识图谱,用以辅助应急管理决策。已有研究缺少对基于知识图谱构建预警机制的探讨,因此,本研究以风险预警模型为核心,围绕风险监测与预警模型两个方面,以知识图谱为工具,构建基于数据驱动的风险预警模型,旨在从丰富的数据中获取有效特征,实现传统预警机制向数据驱动预警机制的转变,以期为有效提高应急预警效率提供新方法。

一、知识图谱的定义与架构

(一)定义

知识图谱的主要目标是描述真实世界中存在的各种实体关系和概念,其基本组成单位是“实体-关系-实体”构成的三元组。在基本单位中,实体需要属性值来标记,关系负责连接两个实体,从而描述客观世界存在的复杂关系(如图1所示)。如果两个节点之间存在关系,则两者之间由有向边来连接,节点称之为实体,有向边称之为关系,属性值是对实体所做的标记。

图1 企业财务危机知识图谱示例

在逻辑上,知识图谱可分为两个层次:数据层和模式层[6](P23-27),数据层存储真实的数据记录,如图1中的企业财务危机-财务报表;模式层建立在数据层之上,是知识图谱的核心,数据经处理形成知识存储于模式层并通过本体库进行管理。

(二)整体架构

知识图谱的构建过程主要包括数据获取、知识抽取、知识融合、知识加工4个过程。

知识图谱的构建始于原始数据的获取和处理,数据是知识的来源,因此数据获取与预处理是知识图谱的基础。依数据类型,原始数据可分为结构化、半结构化和非结构化三类数据,其中,结构化数据可直接用于知识图谱的构建,而半结构化和非结构化数据需要进行信息抽取才能用于建立知识图谱,来源不同的数据进行预处理的结果是形成一个统一的数据集,在此基础上进行知识图谱的构建[7](P1-13)。

知识抽取依据知识图谱的基本组成单位可分为实体抽取、关系抽取和属性抽取,它自动化地从半结构化和非结构化数据中进行实体、关系和属性的抽取,并形成结构化信息。其中,实体抽取是从文本数据集中自动识别命名实体,因此也被称为命名实体识别。关系抽取是为了得到语义信息,从相关语料中提取出实体之间的关联关系,只有通过关系将实体联系起来,才能形成网状的知识结构。属性抽取的目标是从不同的数据源中采集特定实体的属性信息,采用数据挖掘的方法从文本中挖掘实体属性和属性值之间的关系模式,以实现属性名与属性值在文本中的定位[8](P46-54)。如图1中的企业财务危机,其发生时间与损失报告是企业财务危机实体的属性值。

知识融合是在知识抽取完成后,对数据进行的逻辑归属与错误、冗杂的过滤过程,对于结构化数据,主要通过知识合并的流程实现第三方库的合并,以处理数据层与模式层的冲突;对于非结构化数据,主要通过实体链接实现实体消歧和共指消解,实体消歧解决同名实体产生歧义问题,共指消解解决多个指称对应同一实体对象的问题[9](P459-473)。

知识加工过程包括本体构建、知识推理、质量评估和知识更新。本体构建是实体间并列关系的相似度计算、上下位关系的抽取以及本体的自动生成,实现数据归类的过程;知识推理是通过基于逻辑规则、分布式表示以及机器学习等的知识推理,解决图谱之间关系值的缺失问题;质量评估是通过设置置信度对知识的可信度进行定量化表达,以保障知识库的可信度;知识更新是根据图谱投入使用后产生的新数据对整体架构进行更新。其构建过程如图2所示。

图2 知识图谱构建过程

知识图谱在构建完成后,与行业特有的应用形态、领域数据和业务场景相结合,即可助力某一特定领域的发展。本文的主要内容不涉及知识图谱的具体构建,只将知识图谱搜索结果应用于应急预警机制的设计过程。

(三)企业财务危机知识图谱

企业财务危机知识图谱是利用网络搜索,结合定性分析,利用实体之间的关系和特征分析企业财务危机的详细信息,用于企业财务危机指标体系的构建,为后续设计风险预警模型奠定基础,同时根据应急预警模型实现预警信息的可视化,以此指导企业的财务应急预警工作,为企业发展提供保障。本文根据特定企业的财务现状及影响因素,参考相关文献,绘制出企业财务危机知识图谱(如图3所示)。基于该知识图谱,在进行企业财务危机分析时,可将图谱呈现内容分为数值数据和非数值数据,数值数据可直接利用于模型的构建;非数值数据可结合特定行业要求与数值分析结果进行定性分析。

图3 企业财务危机知识图谱

二、基于知识图谱的企业财务风险预警模型

应急预警机制是包含多个系统和要素及其结构关系的运行机制。其社会学内涵可阐述为:在正视事物各个部分存在的前提下,动员社会各种力量,利用有效的监控系统,对可能引起公共危机的多种风险因素和危机征兆进行监测,并通过预判其危害程度进而发出正确的警报,同时在政府及其他部门的协同工作下,协调系统各部分之间的关系以更好发挥应急预警作用的具体运行方式。因此,应急预警机制可以看作一个系统,即通过综合考虑对研究目标产生影响的因素,能够灵敏准确感知危险前兆的系统,以实现信息的超前反馈,为决策者及时采取措施奠定基础。而整个应急预警机制包括对风险因素的监测、风险预警分析以及分析结果的传达,其中风险预警模型在整个过程发挥核心作用。知识图谱作为一种描述客观世界复杂关系的技术,能够对风险因素的监测与结果的可视化表达提供有力支撑,本文基于应急预警机制的主要内容与技术支撑设计了基于知识图谱的风险预警框架,如图4所示。知识图谱要根据特定领域知识与行业要求构建,形成相应的数据层与模式层后再应用于风险监测系统与风险预警系统。

图4 风险预警框架

(一)风险监测系统指标选取

对风险因素的监测本质上是风险的识别过程,风险监测系统的主要任务是根据各种潜在的风险指标,构建风险监测指标体系,同时对数据进行相关处理后初步判断研究目标的现状,处理后的数据用于风险预警系统中的模型分析阶段。在综合考虑数据获取难易程度、预警标志的设计、知识图谱可视化结果等多个方面后,构建企业财务风险预警模型,进行应急预警机制的设计与实证分析。

姚爽等[10](P136-140)综合选取了12个财务指标和7个非财务指标对企业的信用风险进行定量分析。关璧麟等[11](P82-89)选取了资产结构、财务结构等方面的29个指标进行了企业财务危机的信号与预测分析。参考相关文献[12](P41-44),选取了14个财务指标作为监测指标,见表1。

表1 企业财务危机风险监测指标

(二)风险预警系统模型构建

1.预警标志确定

风险预警系统的主要任务是根据预警标志判定研究系统是否需要报警[13](P126-129)。对企业财务危机的界定方法众多,比如依据企业股票是否为ST股票作为判定标准。本文将资产的经营性现金流量回报率是否为负作为判定企业财务危机的标准。资产的经营性现金流量回报率是经营活动产生的现金流量净额与总资产的比值,其正负取决于企业经营性现金流量净额的正负,若经营性现金流净额为负,说明在报告期内经营活动的现金流出大于现金流入,企业面临现金流动危机,因此该指标相对于ST股票更具合理性。

2.预警模型构建

在预警标志确定的基础上,因变量Y为企业是否出现财务危机,当企业经营性现金流量净额为正时,Y赋值为1,反之则赋值为0。由于Y为二值分类变量,因此选用二元Logistic回归分析对该问题进行建模。上述风险监测系统确定的n(n=14)个指标为Y的影响因素,则令P表示在n个影响因子下企业出现财务危机的概率,则函数关系可记为P=P(Y=0|x1,x2,x3,…,x14)。

回归模型为

将上式进行对数变换,得到以下线性模型:

LogisticP=β0+β1x1+β2x2+…+βnx14,

其中,回归系数βi用来表示变量xi对企业财务危机出现的影响程度。

三、实例分析

(一)数据获取与预处理

以上市企业为研究对象开展实证研究,选取2022年中国A股市场70家上市公司的财务数据,其中50家企业数据用于模型训练,20家企业数据用于模型验证。财务指标数据来源于新浪财经网的公开数据。以经营性现金流是否为负作为企业财务危机的判别标准,其中,正常企业23家,危机企业27家。预处理过程包括数据缺失值检查与标准化处理,将有缺失值的企业删除,并替换为无缺失值的其他企业;标准化处理是为了消除量纲影响。

(二)主成分分析

对选取的财务指标做主成分分析,以降低指标之间的相关性。在经过预处理之后,选用SPSS25软件对归一化后的数据进行主成分分析,得到KMO、巴特利特检验、评价指标的累积方差贡献率和旋转后的成分矩阵,见表2、表3和表4。

表2 KMO和巴特利特检验

表3 总方差解释表

表4 旋转后的成分矩阵

由表2,KMO取样适切性量数为0.677>0.5,说明数据可以接受做因子分析,巴特利特球形度检验显著性为0.000<0.05,说明该变量可以为因子分析提供合理基础。

由表3可知,前5个公共因子可以解释原始变量总方差的80.383%,说明这5个公因子对于总体有较好的代表性,因此本文从14个财务指标中提取出5个公共因子进行后续分析。

表4是使用凯撒正态化最大方差法得到的旋转后的成分矩阵,根据各变量的因子载荷系数判断因子归类。公因子1由流动比率、速动比率、现金比率和资产负债率构成,反映企业的债务状况;公因子2由成本费用利润率、销售净利率和净资产收益构成,表示企业的赢利能力;公因子3由主营业务收入增长率、净利润增长率和净资产增长率构成,表示企业的成长能力;公因子4由经营现金净流量对销售收入比率、资产的经营现金流量回报率、经营现金净流量对负债比率构成,表示企业的现金流量;公因子5由主营业务成本率构成,表示企业的付出成本。见表5。

表5 降维后的5个主成分

由于旋转后的成分矩阵并不是主成分载荷矩阵,因子在SPSS中根据公式(1)计算主成分载荷矩阵,并计算得出每个主成分的表达式。

(1)

其中,Ui是主成分载荷矩阵,Ai是因子载荷矩阵,λi是各个因子的特征值,Zxi是标准化后的变量。主成分表达式如下:

F1=-0.037 82Zx1-0.013 35Zx2-0.025 81Zx3-0.014 68Zx4+0.027 14Zx5-0.030 70Zx6+0.000 44Zx7+0.170 42Zx8+0.160 18Zx9+0.096 55Zx10-0.119 25Zx11+0.020 47Zx12+0.014 24Zx13+0.010 23Zx14。

(2)

F2=0.007 37Zx1+0.156 48Zx2+0.326 57Zx3+0.159 88Zx4-0.075 97Zx5-0.065 2Zx6-0.065 77Zx7-0.108 29Zx8-0.040 82Zx9-0.029 48Zx10-0.114 53Zx11+0.082 21Zx12-0.056 70Zx13-0.078 81Zx14。

(3)

F3=0.001 83Zx1+0.005 49Zx2-0.172 97Zx3+0.029 29Zx4+0.474 05Zx5+0.396 27Zx6+0.297 43Zx7+0.175 71Zx8+0.033 86Zx9-0.107 07Zx10+0.170 22Zx11-0.018 30Zx12+0.043 01Zx13-0.169 30Zx14。

(4)

F4=0.002 01Zx1+0.021 10Zx2-0.184 83Zx3-0.006 03Zx4-0.113 51Zx5-0.174 79Zx6+0.026 12Zx7-0.062 28Zx8-0.009 04Zx9+0.213 97Zx10-0.013 06Zx11+0.238 07Zx12+0.417 88Zx13+0.562 54Zx14。

(5)

F5=0.636 66Zx1+0.067 24Zx2-0.119 77Zx3+0.029 42Zx4-0.419 19Zx5+0.222 73Zx6+0.148 13Zx7-0.213 27Zx8-0.114 52Zx9+0.217 47Zx10+0.180 70Zx11-0.514 79Zx12-0.027 32Zx13+0.121 87Zx14。

(6)

(三)Logistic回归分析

经过主成分分析后得到的5个公因子彼此之间是线性无关的,因此可以将数据用于后续的Logistic回归分析,并另随机选取10家上市公司财务指标进行验证,训练样本与验证样本比例为8∶2。

使用主成分分析得到的5个公因子进行Logistic回归,采用向前LR方法,因变量为企业是否出现财务危机,并将出现财务危机的公司内部编码为0,正常公司内部编码为1,P值大于0.1时退出模型,分析结果见6。

由表6,公因子F1,F2,F4,F5被纳入模型中,且P值均小于0.05,

表6 企业财务危机应急预警模型

Y=-3.783F1+14.269F2+16.634F4-6.918F5-3.009。

(7)

根据SPSS软件分析结果,该风险预警模型包含4个变量,分别是债务状况、盈利能力、现金流量和付出成本。其中,盈利能力和现金流量两个变量回归系数为正,说明企业的盈利能力和现金流量与该企业是否发生财务危机呈负相关,企业盈利能力越强,现金流量越大,说明企业财务状况更为乐观;债务状况和付出成本回归系数为负,说明企业资产结构不合理、成本控制不合理时,企业容易发生财务危机。

根据各变量对应的瓦尔德系数可知,现金流量与付出成本对于企业的财务危机具有更大的贡献度,其次是盈利能力,最后是债务状况。上述分析结果启示企业财务管理者应着重关注公司的现金流量与成本控制,以预防财务危机的发生。

将验证样本数据代入该风险预警模型,并与训练样本正确率做对比。训练样本预测正确数为48,训练样本总数为50,训练集准确率为96%;验证样本预测正确数为17,验证样本总数为20,验证集准确率为85%,表明该模型在企业财务危机应急预警方面有较好的表现。

利用本文构建的应急预警机制优化企业财务危机的知识图谱[14](P73-76)[15](P68-73),根据风险监测系统和风险预警系统的分析结果,在知识图谱中添加实体关系,突出模型分析结果,展现危机预测方法,实现企业财务危机预警的可视化。如图5所示,在应急预警机制的风险监测系统和风险预警系统下,重点关注企业的财务指标和财务报表,使用主成分分析与二元Logistic回归分析的模型方法,得出不同关注程度的综合财务指标,现金流量与付出成本为黄色标记,需重点关注。优化后的知识图谱重点清晰,层次分明,对于企业财务危机预警工作具有实际参考意义。

图5 优化后的企业财务危机知识图谱

四、结语

本文以当前应急预警机制中预警模型的设计为核心问题,借助知识图谱的信息可视化,研究分析了预警的具体内容,包括风险监测系统和风险预警系统,构建了风险监测的指标体系与风险预警模型;以企业财务危机为例,利用SPSS数据分析软件进行了实证分析。研究结论如下:训练样本模型准确度高达96%,验证样本模型准确率高达85%,这表明本文构建的应急预警模型在预警效果上表现良好。

知识图谱为信息的获取、管理与呈现提供了一种新的手段,为应急预警工作中信息收集与可视化呈现提供方便,在当前人工智能与大数据飞速发展的时代,基于数据驱动的模型构建能够大幅度提高定量分析的准确度,为应急预警工作的决策提供可靠建议。另外,数据爆炸式增长不仅需要数据降维,更需要数据的筛选与系统呈现,应急预警工作需要更多先验知识以构建模型,先验知识越准确,维度越多,模型准确率越高,因此知识图谱作为信息管理的新工具,既可以应用于信息搜集与分析阶段,也可以应用于分析结果的呈现阶段。

本文方法的有效性证明了知识图谱应用于应急预警领域的可行性,为应急预警工作的信息搜集、模型构建与机制内容设计提供了新的方法,对于新时期完善应急管理体系具有重要意义。

本文不足之处包括知识图谱应用与数据选取方面。首先是本文并未通过数据层与模式层的搭建来构建应急领域的知识图谱,只是应用应急知识的搜索以知识图谱的形式进行可视化展示,用以风险指标体系的构建;其次是以企业财务危机为例进行实证分析,在数据选取方面缺乏动态性,数据量相对较少,且未将非数值型数据纳入数据选取范围。

在后续研究中,可以就某一领域的应急管理工作构建应急预警知识图谱,通过本文所述的构建过程,实现知识图谱的自动化呈现。在数据选取方面,可尝试动态的时序数据,同时扩大数据量与数据源进行模型训练与验证。

猜你喜欢

财务危机图谱实体
绘一张成长图谱
前海自贸区:金融服务实体
基于LASSO-LARS的上市公司财务危机预警模型研究
拿什么拯救中年财务危机
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
基于遗传算法和LS-SVM的财务危机预测
内部控制与财务危机预警耦合——基于外贸企业内部控制与风险管理问题的研究