融合新闻文本和时序信息的上市公司财务欺诈预警

2023-06-11陈朝焰韩冬梅吴馨一

财会月刊·下半月 2023年6期

陈朝焰韩冬梅吴馨一

【摘要】本文针对资本市场中普遍存在的上市公司财务欺诈问题，在财报数据中融入财经新闻文本特征，并提取时序信息，为上市公司财务欺诈预警提供新途径。以结构化的财报数据和非结构化的新闻文本数据为对象，在结构化数据特征中融入新闻文本的主题特征、观点特征、情绪特征和欺诈特征，然后提取时序信息，并基于树集成的方法实现上市公司财务欺诈预警。本文融合预警欺诈行为的方法在CSMAR财报数据集和爬取的新浪财经数据集上达到了86.1%的准确率和86.5%的召回率，融入新闻特征和时序信息后比单纯地采用财报数据特征的准确率提高了8%。新闻文本特征可以作为财报数据的有效补充，且在财报数据和新闻文本数据中引入时序信息有利于提高上市公司财务欺诈的预警性能。

【关键词】上市公司；财务欺诈；新闻文本；时序信息；欺诈预警

【中图分类号】F275 【文献标识码】A 【文章编号】1004-0994（2023）12-0030-10

一、引言

上市公司财务欺诈事件时有发生。不仅在我国，在世界范围内上市公司财务欺诈都是一个焦点问题。2020年，瑞幸咖啡发布公告承认其2019年第二至第四季度存在伪造交易行为的财务造假行为，涉及总金额约为22亿元。安然公司曾被曝财务造假，虚增利润5.52亿美元，使得股东和股民损失740亿美元。安然公司的造假丑闻还殃及了花旗银行、安达信等，同时引出了世通的财务欺诈案件，这又导致三万人失业，使投资者损失1800亿美元。除了巨大的财务损失，股民信心也受到重大打击，一时间股票市场持续低迷。因此，公司财务欺诈行为对资本市场的整体发展和投资者的信心都会造成损害。

鉴于财务欺诈事件的频发及其给社会带来的危害，如何准确及时地识别出具有财务造假行为的上市公司，在第一时间减轻财务造假带来的损失，是对资本市场各个方面都非常有意义的研究问题。为此，国内外学者对财务欺诈预警方法进行了广泛研究（王昱和杨珊珊，2021；宋宇和李鸿禧，2020；Bao等，2020；吴庆贺等，2020；Craja等，2020；Hajek和Henriques，2017）。现有研究中，从结构化的“企业—年度”数据中提取财务指标和非财务指标是主流做法（王昱和杨珊珊，2021；宋宇和李鸿禧，2020；Bao等，2020；吴庆贺等，2020）。杨子晖等（2022）指出，采用传统的机器学习模型（如随机森林模型和Logit回归模型等），能够对我国大多数财务危机事件进行有效预警。随着自然语言处理技术的进步，非结构化的文本数据可作为对结构化数据的有益补充（Craja等，2020；Hajek和Henriques，2017）。然而，结构化数据和文本数据中的时序信息没有得到充分挖掘。鉴于此，本文将时序信息的提取引入结构化数据和非结构化的文本数据中，以期能够更好地捕捉公司财务欺诈的连续变化信息，从而获得更好的上市公司财务欺诈预警性能。

从数据的获取途径来看，结构化年报数据通常来源于国泰安（CSMAR）或锐思（RESSET）等公开的金融数据库，其发布时间均有一定的滞后性；此外，上市公司财务欺诈的界定依赖于监管机构发布公告的时效性，且通常也存在一定的滞后性。鉴于此，本文通过对爬取的财经新闻文本进行信息挖掘，以期弥补结构化数据时效性不足的问题。

本文的主要贡献如下：首先，在结构化的财报指标数据基础上，增加了新闻文本作为新的数据源，并提取时序信息，建立了一个更加完善的上市公司财务欺诈预警框架；其次，在提取结构化财报数据特征和新闻文本特征的时序信息时，考虑了上市公司经营活动的连续性。与已有研究相比，本文构建的时序性衍生指标考虑了隐藏在财报数据和新闻文本数据中的时序信息，各指標的时序性变动可能预示着企业的财务危机或企业财务规律上的异常，更有利于进行财务欺诈预警。此外，由于新闻报道的客观性和即时性，新闻文本特征的引入，更能及时对有欺诈可能的上市公司发出预警。

二、相关研究综述

国内外关于上市公司财务欺诈预警方面的研究，依据所处理数据形式的不同，可分为结构化方法和非结构化方法。在结构化方法的研究方面，孟银凤和王珮瑶（2023）通过构造Zipf因子，生成新的特征向量补充到数据集中以挖掘更多有效信息，并基于随机森林构造财务预警模型。高燕等（2023）以A股制造企业为样本，构建BP神经网络模型预警财务风险，并以一汽夏利（现中国铁物）为例进行分析，提出防范风险的建议。杨贵军等（2021）通过引入包含代表财务数据质量的修正Benford因子，改善财务危机预警Logistic模型的预测效果。Kotsiantis等（2006）以164家欺诈和非欺诈公司的财务数据作为样本，分别建立了贝叶斯网络、 k-均值、决策树、人工神经网络、支持向量机及逻辑回归模型，使用堆叠变量方法发现混合分类器的效果好于单一模型的分类效果。Cecchini等（2010a）利用40个财务指标，开发了面向金融领域的支持向量机核函数进行公司的管理层舞弊预警。Dechow等（2011）分析了欺诈公司的财务特性，并通过对财务变量的逻辑回归处理预测会计报表中的欺诈行为。Bao等（2020）运用集成学习模型并引入一种新的性能评估指标，得出的欺诈预测结果优于Dechow等（2011）的逻辑回归模型和Cecchini等（2010a）的支持向量机模型。郦金梁等（2020）构建了递延所得税异动指标，并利用XGBoost算法进行上市公司财务欺诈预警。

在非结构化方法的研究方面，随着自然语言处理技术的进步，非结构化的文本挖掘技术成为主流。Cecchini等（2010b）从10-Ks的管理层讨论和分析（MD&A）部分创建字典来区分欺诈和非欺诈公司，将文本数据作为财务数据的有效补充，其分析结果表明MD&A文本补充了定量财务信息。Purda和Skillicorn（2015）对MD&A部分的所有单词进行有效性排序，挑选前200个最具预测性的单词，采用词袋模型对样本分类，取得了较好效果。Hajek和Henriques（2017）从MD&A文本中提取语言学指标，作为对结构化指标的有效补充，共同实现财务报表舞弊的智能预警，并比较了多种机器学习方法的性能。Dong等（2018）提出了一个基于SFL理论的文本分析框架，结合社交媒体文本的概念功能和人际功能对上市公司欺诈的早期迹象进行预警。徐凯等（2022）以MD&A文本信息为基础，构建Logistic财务危机预警模型，研究了MD&A文本积极信息与文本信息可读性对企业财务危机的预警作用。肖毅等（2020）基于TEI@I方法论的理论框架，集成文本挖掘和深度学习构建企业财务风险预警模型。Brown等（2020）运用隐性狄利克雷分布（LDA）主题模型，将MD&A部分的主题特征与财务数据和文本特征相结合，证明了提取披露的主题有助于捕捉财务不端行为。胡楠等（2021）基于高层梯队理论和社会心理学中的时间导向理论，得出管理者内在的短视主义特质与企业资本支出和研发支出的关系，采用文本分析和机器学习技术构建出管理者短视主义指标并据此完成实证检验。

从上述研究中可以发现，不少研究会将非结构化文本数据作为对结构化数据的有效补充，这有利于提升上市公司财务欺诈预警性能。然而，文本数据的观点、主题和情绪等特征在欺诈年度附近的变化信息并未得到充分考虑。鉴于此，本文在结构化的财报数据中融入财经新闻文本特征的同时，还在模型中加入提取的时序信息，为上市公司财务欺诈预警研究提供新思路。

三、特征工程与时序信息提取

为更好地将结构化的财报数据和非结构化的新闻文本数据有效融合，需进行特征工程处理，将其变换至相同的特征维度。且在进行特征变换前，对财报数据和新闻文本数据的特征均需进行时序信息提取。

（一）结构化财报数据的特征提取

本文所采取的结构化财报数据特征工程与时序信息提取过程如图1所示。从图1可以看出，结构化财报数据可由财务指标和非财务指标表征，但在将其输入财务欺诈智能预警模型前，需对其进行数据预处理和特征變换。另外，为了降低数据的维度，还需进行指标筛选。

1. 财务指标和非财务指标挑选。依据国内外相关研究文献（Chen和Han，2023；叶钦华等，2022），并结合上市公司财报指标数据的获取情况，本文共筛选了与结构化财报数据相关的42个指标，其中偿债能力（x1 ～ x3）、比率结构（x4 ～ x6）、经营能力（x7 ～ x10）、盈利能力（x11 ～ x13）、现金流分析（x14 ～ x16）、风险水平（x17，x18）、发展能力（x19 ～ x24）、每股指标（x25 ～ x27）和流动资产结构（x28 ～ x32）等共计9类32个为财务指标，股本结构（x33 ～ x35）、治理综合信息（x36 ～ x39）、三会基本信息（x40 ～ x42）等共计3类10个为非财务指标。本文选取的与结构化财报数据相关的指标及其定义如表1所示。

对于上述挑选好的指标，结合上市公司的欺诈年度情况，可建立结构化的“企业—年度”数据集。

2. 结构化数据时序信息提取。为了更好地捕捉上市公司的财务欺诈行为，需考虑能够反映各指标数据连续变化和累积效果的时序信息。对于表1中的财务指标数据x1 ～ x32，其为连续型数值，因此采用比值形式构造财务指标的衍生变量：

（三）基准算法与树集成方法

可供选择的机器学习模型fML（?）种类较多，决策树由于具有很强的可解释性和简易性而受到广泛关注。常见的决策树模型类型有ID3、 C4.5、 C5.0和CART，其中CART的应用最广泛。由于容易出现过拟合，常规的决策树模型很少被采用，通常仅作为基准模型用于性能对比，因此本文选择CART（Loh，2011）作为基准模型。实际被广泛应用的是树集成方法，主要有两大类： RF和提升树。RF（Breiman，2001）可看做Bagging集成的变体，由成百上千棵决策树构成基分类器，这些基决策树的属性来自于对全体属性集合的随机抽样；提升树同样集成了成百上千棵决策树，但其通过不断添加越来越多的树，来迭代地减小分类误差，直到满足停止条件为止。为构造提升树，可在AdaBoost（Freund和Schapire，1997）中使用决策树作为基本分类器，这样可将多个弱分类器提升为强分类器。当使用梯度提升算法来解决优化问题时，提升算法成为梯度提升算法，最典型的是XGBoost（Chen和Guestrin，2016）。XGBoost是对经典梯度提升算法的改进，在求解损失函数的最优解时使用了牛顿法，并将损失函数泰勒展开到二阶，另外损失函数中加入了正则化项。

综上所述，本文共挑选三种典型的树集成方法： RF、 AdaBoost和XGBoost，并使用经典的CART决策树作为基准分类器，对树集成方法的性能进行对比。

五、实验验证与分析

（一）数据集描述

本实验所使用的结构化数据来源于中国经济金融研究数据库（CSMAR），新闻文本数据则爬取自新浪财经网站。本研究共收集2016 ～ 2018年620家上市公司（310家欺诈样本和310家非欺诈样本）的结构化数据和76675篇新闻文本数据。首先根据标题中的关键词筛选掉与多家公司相关联的新闻文本，然后对余下的新闻进行人工筛选，共得到15043篇。其中：欺诈公司在欺诈前一年共有3431条，在欺诈当年有4985条；非欺诈公司在欺诈前一年有3000条，在欺诈当年共有3627条。各家上市公司的分类标签则依据CSMAR数据库中的上市公司财务违规信息表进行标注。本研究采用企业—年度数据标注形式，即将欺诈当年的每一家公司作为一个样本，而对于连续多年均存在财务欺诈的公司，则选取该公司首次被披露的年份。

（二）实验设置与过程

本实验所采用的上市公司财务欺诈预警过程如图6所示。在结构化数据中融合新闻文本特征，并提取相应的时序信息。进行特征集成时，分别对财报数据和财经新闻文本数据及其时序性衍生特征进行组合。然后分别利用CART、 RF、 AdaBoost和XGBoost等构建上市公司财务欺诈预警模型，实现对上市公司财务欺诈的智能预警。

实验中，采用五折交叉验证的方式对所选模型进行性能评价。首先，将来自620家上市公司的样本划分成5等份；其次，采用五折交叉验证，将其中4份作为训练集，余下1份作为测试集；最后，将五折交叉验证结果的均值作为模型评价指标的结果。本文选取准确率Acc=（TN+TP）/（TN+FP+FN+TP）和召回率Recall=TP/（FN+TP）作为模型性能的评价指标，其中， TN、 FP、 FN和TP分别为真负率、假正率、假负率和真正率，其可通过混淆矩阵获得。

六、结论

本文将传统的结构化财报数据、非结构化财经新闻文本数据及其时序信息进行融合，并基于树集成方法对上市公司财务欺诈进行了预测分析。主要结论为：第一，新闻文本特征可作为上市公司财报数据的有效补充。新闻的时效性强于财报，从新闻文本中提取的主题、观点、情绪和欺诈等特征是对财务指标与非财务指标的有益补充。第二，在财报数据和新闻文本数据中引入时序信息均有助于提高上市公司财务欺诈预警性能。时序信息的利用，有助于后续的机器学习模型捕捉指标或特征的连续变化，更有利于识别上市公司的财务欺诈。第三， AdaBoost算法的欺诈预警性能优于RF算法和XGBoost算法。在利用树集成方法实现上市公司财务欺诈预警时，将RF、 AdaBoost和XGBoost算法的性能与基准的CART算法的性能进行了对比，发现AdaBoost算法的性能最佳，达到了86.1%的准确率和86.5%的召回率。

上市公司财务欺诈预警模型的输出信息，可为监管部门、上市公司管理者和投資者等使用方提供智能决策依据。研究的实践意义为：首先，对于证监会、深圳证券交易所、上海证券交易所等监管部门而言，如果某公司存在欺诈预警，则监管部门需对该公司加以重点关注和考察，并加大监管力度，以减小财务欺诈给资本市场带来的冲击，进而促进证券市场健康运行。其次，对于被考察企业而言，如果其收到财务欺诈预警信号，则表明其财务指标已经开始恶化。为避免因财务指标恶化而导致企业财务危机，进而带来不必要的损失，其管理者应及早排查企业的财务风险状况，以及时发现偏离正常范围的各项指标，并采取措施进行补救，及时规避财务风险。最后，投资者在识别上市公司的投资风险时，如果发现某公司存在欺诈预警，则投资者需详细评估该公司的财务风险状况，并对其投资决策做相应的调整，以规避盲目投资带来的经济损失。

【主要参考文献】

胡楠，薛付婧，王昊楠．管理者短视主义影响企业长期投资吗？ —— 基于文本分析和机器学习［ J］．管理世界，2021（5）：139 ～ 156+11+19 ～ 21．

郦金梁，吴谣，雷曜，黄燕婷．有效预警上市公司违规的递延所得税异动指标和人工智能模型［ J］．金融研究，2020（8）：149 ～ 168．

孟银凤，王珮瑶．基于Zipf定律的随机森林财务预警模型［ J/OL］．山西大学学报（自然科学版）：1 ～ 9［2023-05-09］.https：//doi.org/10.13451/j.sxu.ns.

2022088．

宋宇，李鸿禧．基于决策树集成的债券发行企业财务预警研究［ J］．财会月刊，2020（6）：45 ～ 50．

王昱，杨珊珊．考虑多维效率的上市公司财务困境预警研究［ J］．中国管理科学，2021（2）：32 ～ 41．

吴庆贺，唐晓华，林宇．创业板上市公司财务危机的识别与预警［ J］．财会月刊，2020（2）：56 ～ 64．

肖毅，熊凯伦，张希．基于TEI@I方法论的企业财务风险预警模型研究［ J］．管理评论，2020（7）：226 ～ 235．

徐琳宏，林鸿飞，潘宇等．情感词汇本体的构造［ J］．情报学报，2008（2）：180 ～ 185．

杨贵军，孙玲莉，周亚梦等．基于修正Benford律的财务危机预警Logistic模型及其应用［ J］．数理统计与管理，2021（4）：585 ～ 595．

杨子晖，张平淼，林师涵．系统性风险与企业财务危机预警 —— 基于前沿机器学习的新视角［ J］．金融研究，2022（8）：152 ～ 170．

叶钦华，黄世忠，叶凡等．严监管下的财务舞弊分析 —— 基于2020～2021年的舞弊样本［ J］．财会月刊，2022（13）：10 ～ 15．

Bao Y.， Ke B.， Li B.， et al.. Detecting accounting fraud in publicly traded US firms using a machine learning approach［ J］．Journal of Accounting Research， 2020（1）：199 ～ 235．

Blei D. M.， Ng A. Y.， Jordan M. I.. Latent dirichlet allocation［ J］．Journal of Machine Learning Research，2003（1）：993 ～ 1022．

Breiman L.. Random forests［ J］．Machine Learning，2001（1）：5 ～ 32．

Brown N. C.， Crowley R. M.， Elliott W. B.. What are you saying？ Using topic to detect financial misreporting［ J］．Journal of Accounting Research，2020（1）：237 ～ 291．

Cecchini M.， Aytug H.， Koehler G. J.， et al.. Detecting management fraud in public companies［ J］．Management Science，2010a（7）：1146 ～ 1160．

Cecchini M.， Aytug H.， Koehler G. J.， et al.. Making words work： Using financial text as a predictor of financial events［ J］．Decision Support Systems， 2010b（1）：164 ～ 175．

Chen Z. Y.， Han D.. Detecting corporate financial fraud via two-stage mapping in joint temporal and financial feature domain［ J］．Expert Systems with Applications，2023（217）：119559．

Craja P.， Kim A.， Lessmann S.. Deep learning for detecting financial statement fraud［ J］．Decision Support Systems，2020（139）：113421．

Dechow P. M.， Ge W.， Larson C. R.， et al.. Predicting material accounting misstatements［ J］．Contemporary Accounting Research，2011（1）：17 ～ 82．

Dong W.， Liao S.， Zhang Z.. Leveraging financial social media data for corporate fraud detection［ J］．Journal of Management Information Systems，2018（2）：461 ～ 487．

Freund Y.， Schapire R. E.. A decision-theoretic generalization of on-line learning and an application to boosting［ J］．Journal of Computer and System Sciences，1997（1）：119 ～ 139．

Hajek P.， Henriques R.. Mining corporate annual reports for intelligent detection of financial statement fraud-A comparative study of machine learning methods［ J］．Knowledge-Based Systems，2017（128）：139 ～ 152．

Jiang F.， Lee J.， Martin X.， et al.. Manager sentiment and stock returns［ J］．Journal of Financial Economics，2019（1）：126 ～ 149．

Kotsiantis S.， Koumanakos E.， Tzelepis D.， et al.. Forecasting fraudulent financial statements using data mining［ J］．International Journal of Computational Intelligence，2006（2）：104 ～ 110．

Loh W. Y.. Classification and regression trees［ J］．Wiley Interdisciplinary Reviews： Data Mining and Knowledge Discovery，2011（1）：14 ～ 23．

Purda L.， Skillicorn D.. Accounting variables， deception， and a bag of words： Assessing the tools of fraud detection［ J］．Contemporary Accounting Research，2015（3）：1193 ～ 1223．