上市公司财务舞弊预测因子定量评估算法

2023-05-06张熠刘天祥黄远健

会计之友 2023年10期

张熠刘天祥黄远健

【摘要】随着股票发行注册制的全面实施，如何对上市公司财务舞弊行为进行有效的定性或定量预测及判断，成为监管机构、金融机构及相关领域学者关注的重点和研究难点。文章通过构建舞弊影响因子向量，引入关系矩阵，创造性地将上市公司财务舞弊预测因子定量评估问题转化为关联矩阵迭代计算问题，实现财务舞弊预测因子定量评估。首次实现财务舞弊行为预测与财务报告分离，并基于关联矩阵实现可追溯且确定性的预测，为前置监管和精准监管提供理论和应用支撑。基于经验对该算法有效性进行实证，为其在相关领域的应用提供直接支撑。

【关键词】关系矩阵；财务舞弊；定量评估；上市公司

【中图分类号】 F275；F239.1 【文献标识码】 A 【文章编号】 1004-5937（2023）10-0117-07

一、引言

财务舞弊是指企业主体在开展对外财务披露过程中，存在因主客观因素导致重大误导性财务报告，并对第三方决策判断产生实质性影响的行为。宏观层面看，财务舞弊的影响不限于干扰金融市场正常活动秩序，更会深层次通过影响社会资源非理性流动影响整体金融市场的健康发展。财务舞弊，特别是涉及一、二级市场主体（即上市公司）的财务舞弊，能够通过金融市场迅速蔓延到整个资本市场，其影响范围和影响深度要远大于一般性的企业经营失利或决策失误。

党的二十大报告指出，加强和完善现代金融监管，强化金融稳定保障体系，依法将各类金融活动全部纳入监管，守住不发生系统性风险底线。财政部在《关于加大审计重点领域关注力度控制审计风险进一步有效识别财务舞弊的通知》中明确，要严格执行审计准则，提高应对财务舞弊的执业能力。随着股票发行注册制的全面实施，如何对上市公司财务舞弊行为进行有效的定性或定量预测及判断成为业界关注的重点。

随着人工智能和大数据等相关领域的发展与成熟，基于大数据挖掘技术和人工智能的财务舞弊识别成为学术界研究的重点和具有发展潜力的方向。大数据挖掘技术方面，Lin等[ 1 ]利用数据挖掘技术对财务状态信息和公共信息进行评估，并形成一系列涉及垂直领域的财务舞弊判定方法。Goel等[ 2 ]提出了一种新的年度报告定性分析方法，其使用自然语言处理技术确定报告中所表达的情感，并以此为基础进行欺诈检测与预测，研究结果表明报告所表达出的积极和消极情绪与欺诈存在明显的关联性。Kogan等[ 3 ]认为对完整数据的持续审计是有意义的，并提出一种连续数据级审计系统的框架。Alles等[ 4 ]指出财务报表审计使用大数据存在的问题，并提出一系列改进措施。张英明和徐晨[ 5 ]以2010—2019年沪深A股上市公司为样本，从社会责任视角分析了高管团队特征对财务舞弊风险的影响，研究结果表明，在社会责任的调节下，高管团队特征对财务舞弊风险的影响呈现门槛效应。目前该类研究最大的难题在于高质量的数据分级分类和具备普适性的专家模型的获取。同时此类方法本质上属于狀态审计，无法对关联财务舞弊进行有效识别。针对人工智能方面的研究更注重人工智能算法的应用，整体思路是通过对特定财务状态或状态集分析和模型训练，获取有限特征指标，并以此为基础进行财务舞弊判断。余玉苗和吕凡[ 6 ]从发生财务舞弊公司前一年与舞弊当年的财务指标动态增量信息视角入手，建立逻辑回归模型，研究发现固定资产增长率、经营现金流量和流动负债比率等五个财务指标的变动对财务舞弊产生重要影响。金花妍和刘永泽[ 7 ]基于舞弊三角理论构建了舞弊识别模型，研究结果表明，财务稳定性越差、监督部门的监督积极性越低、曾经获得非标准审计意见次数越多，公司发生财务舞弊的可能性越高。姚宏和佟飞[ 8 ]基于层次分析法建立上市公司盈余质量评价四维模型，研究结果表明，该模型将战略管理与价值管理相结合，能够揭示上市公司在价值增长过程中的真实性、稳定性、可持续性、风险性等内在特征。Ravisankar等[ 9 ]基于多层前馈神经网络、支持向量机等人工智能技术进行财务报表欺诈识别，并对各算法的精度和特征进行分析。Maria等[ 10 ]研究提出基于机器学习算法的会计欺诈检测优化机制，并通过评估相关财务指标进一步协助风险较高的企业进行内审。赵纳晖和张天洋[ 11 ]通过实证研究对比了深度学习模型和以往常用的浅层模型在检测财务报告舞弊时的性能，结果表明，在规模对等的舞弊和非舞弊类财务报告组成的文本数据集上，深度学习模型表现出明显优于基准模型的分类性能。高燕等[ 12 ]以A股制造企业为样本，构建BP神经网络模型用于财务风险预警。该类研究最大的困境在于结果的可解释性有待提高，对宏观财务舞弊和关联财务舞弊的识别效能较为有限以及研究成果难以沉淀共享。

基于关联矩阵的研究思路是将目标场景中个体之间的关联关系视为一种“投票”并将其转化为矩阵，然后通过与个体状态向量的迭代计算来实现重要节点识别。不难理解，通过关联矩阵及其迭代计算，基于关联矩阵的算法框架能够将状态问题转变为过程问题，能够对过程问题、路径问题及宏观态势等进行更好的描述。结合财务舞弊识别研究碰到的困难，可以看到基于关联矩阵的财务舞弊研究将是一个非常有前景的方向。Chakrabarti等[ 13 ]首次提出可以将关联矩阵应用于金融舞弊识别，但并未就相关细节进行研究和描述。Romero等[ 14 ]进一步拓展了关联矩阵应用领域，重点针对压力情况下的社会网络行为进行深入探讨，为基于关联矩阵的财务舞弊识别研究提供了理论雏形。目前基于关联矩阵的财务舞弊识别研究还没有形成较为系统的理论框架和技术体系，究其原因包括：（1）环境因子的选择没有普适标准，通常认为参与迭代的记录数需达到8 000万条及以上，小规模数据体量无法保障迭代效果；（2）场景迭代算法有效性无法保证。

基于上述问题，本文首先构建财务舞弊影响因子向量，从财务舞弊事件维度出发，对各影响因子实际发生情况进行分类和归并处理。其次基于同一财务舞弊事件中影响因子之间的关联关系构建财务舞弊预测因子关系矩阵，建立财务舞弊预测因子（如经营亏损、问询、关注和监管措施等）时序影响关系，再借助关系矩阵迭代计算，实现财务舞弊过程快速预测，进而创造性地将上市公司财务舞弊预测因子定量评估问题转化为关联矩阵迭代计算问题，实现财务舞弊预测因子定量评估。在此基础上，本文针对迭代过程涉及的因子向量初始化、算法收敛性、中止条件选择等进行深入分析。最后以2018—2020年已公开披露的财务舞弊事件为对象，对算法有效性进行验证。

二、关联矩阵舞弊预测因子构建

作为金融市场中最活跃的参与者，上市公司经营活动与经营状态一直是监管部门和投资者关注的焦点，并已经实现高度市场化运作。金融市场中，各上市公司最主要的目标是获得比间接融资更低的融资成本来支撑企业发展，在全市场分享其发展收益的同时，也让全市场分担其发展过程中的各种风险。上市公司应根据《上市公司信息披露管理办法》真实、准确、完整、及时地披露信息，不得有虚假记载、误导性陈述或者重大遗漏，并应当同时向所有投资者公开披露信息。在良性市场发展过程中，企业应与投资者保持真实、准确、完整、及时的沟通。但在实际执行过程中，上市公司因各种内外部因素，会有目的性地进行虚假报送、偏向披露、延时披露等不合规操作，以期从金融市场中获取与其市场表现不一致的市场价值预估。换言之，某一个财务舞弊事件，本质上是公司实际经营状态与市场预期不一致的体现，是企业为获得不当市场收益而采取的一种不合规、被动操作。鉴于上市公司的关注度普遍较高，这种不合规操作会前置性地通过各种监管渠道、新闻媒体、官方通告等有所体现，如高管离职、行政处罚、宏观政策变化等，这通常也是“做空”机构寻求收益的立足点。

综上不难理解，上市公司价值是金融市场持续迭代评估过程中的一个特定时间和群体的镜像，在任一时点获得的市场评价都是整个金融市场对其历史表现并与同期其他上市公司综合表现的一个相对值。因此，可以有如下假设：（1）某一个财务舞弊事件，本质上是公司某一段时间内经营活动与经营状态的集中和被动体现；（2）部分经营活动与经营状态的发生会以更高概率预示上市公司进行财务舞弊，如经营亏损；（3）部分经营活动与经营状态之间存在关联关系，且同时出现时会以更高概率预示上市公司进行财务舞弊，如监管措施和重大人事变动。基于此，为了更直观地对本文算法进行描述，提出如下定义：

定义1 财务舞弊影响因子关联关系可以用二元组表示为D（S，R）。其中S=｛s1，s2，…，sn｝是财务舞弊影响因子向量，n为影响因子数量；R表示各影响因子之间的关联关系，R=（Rij），1≤i，j≤n，且有：

Rij=∑si？圮sj si和sj同时出现次数的累加 0 否则（1）

值得注意的是，此处关联关系是一种由源节点指向目标节点的“认可”关系，且矩阵元素值是针对当前财务舞弊影响因子集合S而言，并非所有财务舞弊影响因子集。

定义2 财务舞弊影响因子权重出入度函数是指所有“认可”某影响因子的关联关系和，记为DegR，且有：

DegR（si）=∑jRij （2）

在上市公司经营过程中，DegR可以进一步分为DegIR和DegOR两个函数，前者用于描述潜在影响当前因子的函数和（即入度函数），后者用于描述潜在受当前因子影响的因子函数和（即出度函数）。

定义3 财务舞弊影响因子关联矩阵是指用于描述所有财务舞弊影响因子关联关系的矩阵，记为T，且有：

Tij= DegR（si）>0，1≤i，j≤n 0 否则（3）

考虑到影响因子本身的相对独立性，本文综合算法复杂度和算法有效性选择线性函数作为分布函数，即，表明该影响因子在进行影响权重向下传导时，每个潜在受影响因子所获取权重比例的分布。Rij越大，si能够传导到sj的影响力比例也越大，反之亦然。

定义4 财务舞弊影响因子权重向量是指以每个影响因子的影响权重作为元素值的向量，记为w（S）=［w（s1），w（s2），…，w（sn）］T，w（si）≥0，1≤i≤n，n为影响因子数量。与影响因子关联矩阵和出入度函数不同，因子权重向量表征某一时点该影响因子的实际影响力，值越大，表明其影响力越大，反之亦然。

（一）关联矩阵算法

与现有研究不同，本文强调各影响因子之间以关联关系为基础建立的相互“认可”关系，并以此作为权重计算的基础。在每次迭代过程中，每个影响因子会基于“认可”关系将自身权重以归一化方式公平地传导到下游影响因子，并以同样方式从“认可”它的上游影响因子获取权重。

如图1所示，s3、s4是s1的“认可”影响因子，s3、s4、s5是s2的“认可”影响因子，s1、s2是s3和s4的“认可”影响因子，s2是s5的“认可”影响因子，故各影响因子的权重计算如下：

w（s1）= w（s3）+ w（s4）

w（s2）= w（s3）+ w（s4）+w（s5）

w（s3）= w（s1）+ w（s2）

w（s4）= w（s1）+ w（s2）

w（s5）= w（s2）

进一步，在普适意义上，对于任一个w（S），第k步迭代权重向量为w（S），则有：

w（sj） = =∑iTij*w（si）

（4）

故進一步推导，有：

w（s） =TT*w（s）（5）

根据公式（5）可知，对于任一次迭代操作，所有节点会基于关联矩阵T转置实现其他节点对自身“认可”的权重汇总，并将自身的“认可”投票传递给其认可的节点。在理想情况下，基于公式（3）的归一化处理和关联矩阵转置，公式（5）会在全局层面保持所有节点之间的权重顺利流动。

关于初始向量w（s），在理论层面上可以选择权重向量值不同时为0且非负的任意向量作为初始值，如w（s） =（）T 1*n。值得注意的是，不同选择结果仅影响迭代次数，并不影响最终权重向量计算结果，且当初始向量的权重分布与最终权重向量分布越靠近时，所需要迭代次数越少，反之亦然。每次迭代本质是权重在全局范围内的一次优化并确保优化后的结果更符合其实际权重，因此当迭代进行到一定阶段后，任意连续两次迭代权重向量之间的一次范数会趋于收敛，即算法会趋于收敛。在实际操作过程中，可结合业务诉求设定目标精度作为算法中止条件，即有：

w'（s） -w'（s） <？啄（6）

其中，？啄为某一大于0的常数，其具体选择与目标场景对识别精度和效率的诉求相关。通常，？啄越小，精度越高，且所需迭代次数越多，反之亦然。针对金融市场而言，常规研究对象均在10 000个以内，常规服务器均可以实现准实时计算，即无需关注初始向量的分布选择。但针对一级市场投融资研究而言，考虑到潜在涉及主体数量较大，如极端情况下应覆盖约6 000万的国内工商注册企业，可选择如下三个方案来减少迭代次数以获取更高的性能：（1）在均分权重基础上，提升显性高权重节点的权重占比。（2）在均分权重基础上，进行非关联关系发生次数统计分析，并基于统计结果构建各节点初始权重向量。（3）提前进行粗收敛精度预计算，并基于预计算结果构建各节点的初始权重向量。

（二）预测因子构建

如前文所述，关联矩阵T的主要作用是构建各影响因子之间的关联关系，并基于公式（5）实现所有影响因子之间的权重顺利流转。因此，为了确保权限的充分、公平分配，需确保所有影响因子之间的“认可”关系是直接的或有限步可达的。但实际应用过程中，特别是“孤立”影响因子和影响因子群的存在，会造成影响因子权重无法全局顺利流动，进而导致计算失败。据不完全统计，以2018年1月1日至2020年12月31日时间段内公开披露的数据为例，由监管机构发布的财务舞弊事件共1 918次，影响因子类别共100类，其中安全生产异常和担保变更风险两个影响因子实际发生次数仅为1次，实际发生次数低于100的影响因子数量有43个。

出现“孤立”影响因子和影响因子群的根本原因在于个别或部分影响因子与其他影响因子关联太少或没有，形成若干个只能“独立认可”的影响因子和“内部认可”的影响因子群，造成权重向量无法通过关联矩阵实现全局范围内的顺利流动。为了解决该问题，本文引入了“虚关联关系”。相对于图1所示的实关联关系，虚关联关系（如图2所示）本身并不存在，仅是确保影响因子权重顺利流转的辅助手段。通过对2018年1月1日至2020年12月31日时间段内公开披露数据的分析，按发生次数自高到低，影响因子发生次数的四分之三分位数是39，有10%的影响因子实际发生次数低于10。基于此，在不影响整体权重分布的情况下，将虚关联矩阵r构造为：

r=（）n*n，1≤i，j≤n （7）

设d为权重调节因子并用于分配实关联和虚关联在实际迭代过程中的权重占比，即公式（3）和公式（5）调整如下：

T'=d*T+（1-d）*r （8）

w（s） =（T'）T*w（s）（9）

不难看出，通过r构建了所有影响因子之间的虚关联，同时考虑到其权重分配值远小于实关联分配值，且可以通过调整d来实现权重再分配，其对最终权重结果分布的影响可控。针对d值选择，暂无可执行的标准或规范，在执行层面更多依据算法设计者的经验，但通常在0.85及以上。在实际应用过程中，d值选择通常考虑如下因素：（1）目标场景对各节点之间的权重区分度要求。通常区分度要求越高，d值应越大，如一级市场投资机会挖掘；反之亦然，如宏观面分析研究。（2）初始化r时，虚关联和实关联之间的相对大小。通常相对大小越小，d值需越大，反之亦然。

（三）结果分析

为了进一步对算法有效性进行验证，本文以国内上市公司在2018年1月1日至2020年12月31日时间段内公开披露的数据为分析对象，对算法的收敛性、稳定性及精度选择影响等进行分析。在数据预处理方面，预先进行了剔除财务舞弊撤销和非财务舞弊事件记录、同篇报道影响因子分离以及基于事件的影响因子归集等操作，同时参考财报季度发布机制，选择以财务舞弊事件为基线向前倒推90个自然日作为影响因子统计范围。

测试数据和场景数据如下：（1）发布主体覆盖中国证监会、上海证券交易所、深圳证券交易所及各地方证监局等124家监管及从属机构，财务舞弊事件共发布1 918条，涉及主体952家；（2）以财务舞弊事件发生时间为基线向前倒推90个自然日，针对各上市公司公开发布的负面新闻共有583 163次，影响因子涉及监管措施、经营亏损、证券价格异动等100类；（3）考虑到财务舞弊偏于宏观预测，且虚关系为实关系的1/n（搜索引擎类应用通常为倒数平方或更小）相对较大，设置权重调节因子d为0.85。

1.影响因子集中度分布

影响因子集中度分布如图3所示，披露数据集中度10%的值为18 700次（前10名影响因子发生次数总占比为66.55%），集中度20%的值为8 455次（前20名影响因子发生次数总占比为86.78%），同时可以看出不同影响因子之间存在明显的簇群效應。如表1所示，针对所有发生财务舞弊事件的上市公司，在所有公开披露的负面新闻中，披露次数最多的是“经营亏损”且共计发生95 107次。影响因子的权重按发生次数的统计结果与算法执行结果并不一致。以“经营亏损”为例，实际发生次数约为“问询、关注”的两倍，且就发生次数来看两者分别排名第一和第二，但从权重来看“监管措施”排名第一，从领域常识而言算法执行结果更合理。

2.算法稳定性和收敛性分析

如图4所示，在各迭代精度下，算法均可以实现快速收敛，且迭代精度位数与到达稳定所需求的迭代次数之间整体维持准线性稳定状态，如在1.E-02时需迭代42次，1.E-04时需迭代70次，在1.E-07时则需迭代113次，这也进一步证明了本文算法的稳定性。同时考虑到迭代过程并未对关联矩阵进行诸如稀疏转换等处理，且虚关联关系属于全连接关系，因此在关联关系类别确定情况下，算法收敛特征和稳定性与目标场景中的关联关系数量无关。换言之，算法稳定性和收敛性对目标场景特征是透明的。

3.算法耗时分布

如图5所示，在各迭代精度下，算法均能够快速且稳定的完成迭代计算。在考虑数据加载耗时情况下，算法执行时长整体分布在4秒以内，且变化幅度控制在2.5%以内，因此，针对上市公司财务舞弊预测，算法可用于不同调节因子的多场景准实时分析；若采取数据预加载，虽然耗时变化幅度在8%～33%之间，但整体分布在0.3秒以内，即算法可用于量化交易、动态监管等实时应用场景。

4.精度选择分析

如表2所示，在精度比较弱时，算法执行结果呈现较大的波动性，且仅在到达一定精度后，算法执行结果的排序才会呈现稳定状态。因此，在实际应用过程中，通常需要预设多个精度区间，并通过逐步提升精度的策略进行精度区间测试直至执行结果排序达到稳定状态。针对最终迭代精度，可在选定精度区间后才结合场景诉求进行合理选择。

综上可知：（1）在实施应用层面，上市公司财务舞弊预测主要因子应为监管措施、经营亏损、证券价格异动、行政处罚、问询关注。在开展上市公司财务舞弊预测时，应重点关注涉及此类因子的负面新闻。（2）在进行具体公司财务舞弊监控时，可通过同业公司、产业链上下游公司、归属行业等维度形成场景数据，进而实现更具针对性的预测，并在决策过程中引入算法实现投资机会高效捕捉。

三、结论和展望

本文在分析现有上市公司财务舞弊预测研究内容的基础上，创造性地引入关系矩阵，并将上市公司财务舞弊预测因子定量评估问题转化为关联矩阵迭代计算问题，实现财务舞弊预测因子定量评估。同时本文对算法应用过程中涉及的权重向量初始化、算法收敛性、中止条件选择等进行探索，并以2018年到2020年实际公开披露数据为分析对象，对算法有效性、稳定性进行验证。

与现有研究相比，本文创新点包括：（1）实现财务舞弊行为预测与财务报告分离，将市场面金融活动全部纳入监控，并支持动态扩展和准实时计算；（2）基于关联矩阵实现可追溯、确定性、量化预测，并结合应用需求持续提升计算精度，在保证算法公正、公平的同时，兼顾算法的稳定性和执行效率，为前置监管和精准监管提供理论及应用支撑；（3）借助关系矩阵的透明扩展性，可快速进行新预测因子的判别和影响分析，进而为财务舞弊预测体系的丰富和完善提供有力工具。值得强调的是，影响舞弊的主要自变量应为企业经营状态和企业自身对市场估值的期望，但在既有文献中，针对自变量的研究集中于事后反向推演，即通过预测因子来获取自变量状态和趋势。换言之，本文中的预测因子向量亦可用于舞弊自变量的描述。

后续工作中，笔者将重点研究中止条件智能选择和大规模影响因子场景下的关联矩阵分割等问题，以进一步降低算法空间复杂度，提高权重计算精度及算法执行效率，进而提升算法普适性。

【参考文献】

［1］ LIN C C，CHIU A A，HUANG S Y，et al. Detecting the financial statement fraud：the analysis of the differences between data mining techniques and experts' judgments［J］. Knowledge-Based Systems，2015，89：459-470.

［2］ GOEL S，UZUNER O.Do sentiments matter in fraud detection？ Estimating semantic orientation of annual reports［J］.Intelligent Systems in Accounting，Finance and Management，2016，23（3）：215-239.

［3］ KOGAN A，ALLES M G，VASARHELYI M A，et al.Design and evaluation of a continuous data level auditing system［J］.Auditing：A Journal of Practice & Theory，2014，33（4）：221-245.

［4］ ALLES M，GRAY G L.Incorporating big data in audits：identifying inhibitors and a research agenda to address those inhibitors［J］.International Journal of Accounting Information Systems，2016，22：44-59.

［5］张英明，徐晨.高管团队特征、社会责任意识与财务舞弊風险：基于A股上市公司的门槛效应检验［J］.会计之友，2021（22）：58-65.

［6］余玉苗，吕凡.财务舞弊风险的识别：基于财务指标增量信息的研究视角［J］.经济评论，2010（4）：124-130.

［7］金花妍，刘永泽.基于舞弊三角理论的财务舞弊识别模型研究：支持向量机与Logistic回归的耦合实证分析［J］.大连理工大学学报（社会科学版），2014，35（1）：92-97.

［8］姚宏，佟飞.会计信息失真背景下的上市公司价值质量评价模型［J］.大连理工大学学报（社会科学版），2011，32（2）：32-37.

［9］ RAVISANKAR P，RAVI V，RAO G R，et al. Detection of financial statement fraud and feature selection using data mining techniques［J］.Decision Support Systems，2011，50（2）：491-500.

［10］ MARIA J，RICHARD G.Fighting accounting fraud through forensic data analytics［J］.SSRN Electronic Journal，2018：1-39.

［11］赵纳晖，张天洋.基于MD&A文本和深度学习模型的财务报告舞弊识别［J］.会计之友，2022（8）：140-149.

［12］高燕，杜玥，曾森.基于BP神经网络的制造企业财务风险预警研究［J］.会计之友，2023（1）：62-70.

［13］ CHAKRABARTI D，FALOUTSOS C.Graph mining：laws， tools， and case studies［J］.Synthesis Lectures on Data Mining and Knowledge Discovery，2012，7（1）：1-207.

［14］ ROMERO D M，UZZI B，KLEINBERG J.Social networks under stress［C］//Proceedings of the 25th International Conference on World Wide Web，2016：9-20.