APP下载

基于LDA主题模型的上市公司违规识别
——以中国A股上市银行为例

2022-10-25李维萍

审计与经济研究 2022年5期
关键词:财务指标年报变量

张 熠,徐 阳,李维萍

(南京审计大学 信息工程学院,江苏 南京 211815)

一、引言

近些年来,我国上市公司违规丑闻频发,对投资者的决策以及证券市场的秩序都造成了巨大影响,甚至影响国家的经济运行。因此目前识别上市公司违规的研究层出不穷。传统违规识别是基于年报中的结构化数据构建财务指标。随着文本分析技术的不断发展,学者们开始重视年报中的非结构化数据即文本数据,利用文本分析技术提取文本信息,构建语义、语调等相关指标用于违规预测。《公开发行证券的公司信息披露内容与格式准则第2号——年度报告的内容与格式(2021年修订)》中指出,公司年报中应该包括经营情况讨论与分析、董事会报告、监事会报告等内容。这些非结构化文本主观性强,其编写者更有可能对其进行粉饰夸大甚至编制虚假财务报告,从而造成重大错报风险。在传统审计工作中,随着企业规模扩大,企业的经济活动愈加复杂,审计工作量也随之变大,多数情况下在审计过程中发现的都是财务报表中存在的技术性错误,审计风险依然存在。此外,在有限的时间内,注册会计师在审计时会依据经验将注意力更多地放置在高风险领域。而随着时间的推移,企业的违规手段愈加复杂和隐蔽,仅仅依靠审计师的经验和传统的财务报告分析手段并不能识别出更多的违规行为。因此根据传统的审计模式与方法,审计人员仍有较大造成审计失败的风险。为了进一步规避审计风险、减少审计失败,亟需提高注册会计师识别企业违规的能力。本文基于Brown的思想,利用LDA(Latent Dirichlet Allocation)主题模型提取上市公司年报的潜在主题内容,构建主题指标,捕获年报中管理者是否存在违规意图并获得审计线索。与传统的审计模式相比,利用主题挖掘技术可以更快速地锁定更多的审计疑点,降低审计风险,提高审计效率,辅助注册会计师更精准、更快速地判断上市公司是否存在违规行为并出具正确的审计意见。

由于我国的审查制度以及相关的法律法规等都在不断完善,对于常用的违规手段都能够监察到位,但仍有上市公司为了谋取巨额利润而铤而走险。为了避免被审计人员发现其违规行为,上市公司的违规手段也在随着时间的推移不断地发生变化,采用更新颖、更隐蔽的违规方法与手段。为了探究基于年报文本所构建的主题指标是否可以识别出不断变化的违规手法,本文采用滚动窗口的方法来研究年报主题与上市公司是否存在违规行为之间的相关性,并观察各时间窗口内与违规相关的主题的演化情况。同时,为了检验主题指标是否可有效地对年报中的违规进行预测,本文在每个时间窗口上运行LDA主题模型构建主题指标,基于主题指标运用多种机器学习算法构建上市公司违规预测模型,并对每个时间窗口后一年的违规情况进行预测。此外,由于违规样本占比较低,样本数据存在不平衡现象,本文使采用多种指标评估了模型的预测能力并对主题指标、财务指标、文本特征指标以及合并指标的预测效果进行了对比分析。

本文的主要贡献主要体现在:首先,不同于之前研究中用到的传统财务指标和文本特征指标,本文通过挖掘银行年报的潜在主题信息来构建主题指标,并用于对上市公司违规识别,且提升了传统指标违规识别的准确性,进一步降低了审计风险并提升了审计效率。其次,本文分析了主题指标与违规的相关性以及与违规显著相关的主题随时间推移呈现的变化情况,得到了尽管违规手法愈加隐蔽且复杂,主题指标仍可以有效识别的结论。最后,在相同的输入样本的基础上,检验了不同指标体系、不同机器学习算法在上市银行违规识别上的优劣,找到了更为高效的智能化违规识别方法。

二、文献回顾

关于上市公司违规识别的研究可以划分为两个方面,分别是基于财务信息的违规识别研究以及基于非财务信息的违规识别研究。在传统的基于结构化财务数据预测上市公司违规的研究中,为了识别多种类型的违规,所选变量应尽量涵盖公司业绩的各个方面,因此一般所使用的初始财务变量呈现出数量多且复杂的特点。Dechow等为了发现美国上市公司存在的财务舞弊现象,从应计质量、财务绩效、非财务绩效、表外活动和资本市场等五个方面选择28个结构化变量,建立舞弊识别模型。针对中国上市公司的舞弊现象,有研究也从财务杠杆、营运能力、盈利能力等方面选择财务变量构建舞弊识别模型。尽管常规的财务指标在违规预测中可以表现出很好的预测性能,但在财务变量的选取过程中存在较强的主观性,对模型的分类效果也存在相应的干扰。同时随着上市公司违规手法的愈加高明与隐蔽,仅利用财务指标也无法识别出更多的违规现象。有研究发现,与财务信息相比,非财务信息在反映公司经营活动和未来发展前景上表现更加突出。随着文本分析技术和自然语言处理技术的不断发展,学者们便将注意力转移到年报中的文本上,并利用年报文本构建相关指标从而挖掘年报文本与违规之间的内在联系。有研究发现舞弊公司年报中的管理层与讨论(MD&A)部分中会增加美化公司绩效的内容。此外,与非舞弊年报相比,舞弊年报中的句子会较多使用被动语态和不确定的词汇。国内在这方面的研究主要基于情感分析,研究发现年报中的情感特征有助于财务舞弊的识别。通过梳理国内外的研究发现,用于识别违规的文本特征指标主要涉及文本语调、可读性、相似性等,但以上指标只能反映文本披露形式,并不能揭示文本披露信息的内在含义。本文通过对年报文本进行主题挖掘,提取年报潜在主题信息并构建适合中国市场的违规识别模型,可以辅助注册会计师发现更多的审计疑点,从而进一步规避了审计风险。

本文利用LDA主题模型提取年报潜在主题。LDA主题模型由Blei等人在2003年提出,该主题模型是一个概率主题模型,通过建模后可获得文本所对应的主题概率分布。目前在国内LDA主题模型主要用于社交网络、情报分析等领域。如关鹏等将LDA主题模型应用在科技情报分析中,对基于不同科学文献文本语料库而建立的模型的主题发现效果进行对比评价。目前将LDA主题模型应用到经济和金融领域的研究较少,有研究将LDA主题模型应用到财经新闻文本上并基于此分析主题强度与孟买股票交易所敏感指数的每日收盘价等指标之间的相关关系,并将主题热度用于预测指数的涨跌。近几年在国内也有学者将LDA主题模型应用到财经文本上,在此基础上研究主题的强度、热度或其他特征,并将结果进行可视化。如傅魁等人对LDA主题模型进行扩展,提出SGC-LDA财经文本主题研究模型。

综上,国内外的学者们在构建违规预测模型时关注到了财务信息与文本披露的形式,并基于此来构建财务指标和文本特征指标,但较少研究年报中所披露的主题内容并将其应用于上市公司违规识别中。本文采用LDA主题模型对年报文本建模,构建反映文本语义的主题指标,并用于识别上市银行是否存在违规行为。与财务指标和文本特征指标相比,主题指标蕴含了更为丰富的上下文信息和语义信息,从理论上来说可以更为准确地识别出公司管理者是否有违规意图。因此与单一传统指标相比,基于主题指标的违规识别模型打破了原有的审计模式,充分利用中文年报的非财务信息,将主题挖掘技术运用到审计中,帮助注册会计师更快速获得丰富的审计线索,从而减少审计失败的可能性,更大程度地规避审计风险。目前在国内还没有将年报主题信息用于违规识别方面的研究,因此研究文本主题指标与违规之间的联系对于中国市场来说具有重要意义。

三、理论分析和研究假设

(一)年报文本主题与违规

我国年报中披露的管理层讨论与分析、董事会报告等文本信息不仅总结了公司上一年的经营成果、财务状况,也对公司即将要发生的重大事项和未来可能发生的变化进行了讨论与分析,因此年度报告中的文本数据可以反映公司将来的发展风险和趋势。此外,在上市公司年报中,文本数据所占篇幅明显高于财务数据,尤其在近几年,年报篇幅逐渐增加,除去三大报表,非结构化文本占比明显上升。因此通过对上市公司年报中的文本信息进行挖掘和分析,了解公司整体的业绩和发展趋势,可以获取更多的有效信息,无论是对于投资者的选择,还是注册会计师的决策,都是不可缺少的。

即使上市公司年报文本中蕴含着丰富的信息,但由于文本篇幅过长,完全依靠人工阅读、理解并直接提取文本中的有效信息难度非常大,且效率非常低。因此在本文中使用LDA主题模型对年报文本潜在的主题进行挖掘。主题挖掘是利用主题模型挖掘语料中的隐藏信息,发现一系列非结构化文本中的主题,也就是找出表达文本中心思想的主题词。同时,本文选用LDA主题模型这一最为通用的主题模型,提取具有语义信息的主题。因此,采用LDA主题模型所发掘出的年报文本的主题信息可以很好地反映出年报的潜在语义。由于年报中的非结构化文本在编写时自由度较大,主观性较强,可以传达公司许多内部信息,管理者为了牟利或掩盖本身经营问题可能会对年报文字部分进行美化,在用词遣句上避重就轻或进行选择性披露,导致其年报文本内容发生变化,继而导致使用LDA主题模型对年度报告挖掘后得到的主题信息也会发生改变。因此,年报文本主题是与上市公司违规显著相关的,通过年报主题可以反映出由于要掩盖违规行为所导致的年报内容的变化。此外,随着时间的推移,我国的会计准则、审计准则和监管手段也在不断进行修正与完善,在一定程度上阻止了某些违规行为的出现,但总会产生一些新的违规手段与方法,为了避免被审计人员发现,发生违规行为的年报中讨论的重点会随着时间的推移而变化,即可用于识别违规行为的主题并不是一成不变的,会随着违规手段的变化而变化。因此,可利用年报文本的主题信息去识别新出现的且更隐蔽的违规行为。基于以上的理论分析,本文提出假设H1。

H1:年报文本主题会随着上市公司违规手段的变化而发生变化。

(二)主题指标、财务指标与文本特征指标

目前识别上市公司违规的方法大多是基于结构化的财务数据或股票市场数据,但利用此类数据存在的一个缺点是违规公司会故意操纵当期的绩效指标和会计交易数据以便与本公司之前的业绩数据或同行的业绩数据保持一致,使得违规行为不易被发现,而且有研究指出结构化的财务报表数据可提供给投资者的信息是有限的。因此,仅仅利用财务指标构建的违规识别模型的效果存在一定的不足。为了弥补财务数据的缺陷,研究人员利用财务报告中的非结构化文本数据去发现上市公司是否违规。有研究利用年报文本的语言结构特征来构建与违规相关的指标,如文本可读性、语调等。尽管研究发现利用文本特征指标来识别舞弊有一定的效果,但在一些研究中对于文本特征指标仍然存在质疑,即文本特征是否可以真正捕获到管理者违规的意图。有语言学研究表明,很难从披露文本的文本特征中辨别出其中是否存在欺骗或混淆视听的内容。此外,Loughran和McDonald指出常用的文本语言特征指标并不能反映出文本的上下文和语义信息,从而导致利用文本语言特征指标建立的违规识别模型效果就会有所限制。为了进一步提升违规识别模型的效果,本文基于Brown的思想,运用LDA主题模型构造年报的主题指标,提取年报文本中潜在的语义信息,反映出年报文本表达的真正含义并捕获公司管理者的违规意图。综上,基于年报非结构化文本的主题指标不仅蕴含丰富信息,还具有语义内涵,可以反映出文本披露的具体内容,可以弥补财务指标和文本特征指标在预测违规时的不足。因此,相对而言,在传统单一指标的基础上,主题指标可以提升识别上市公司违规的性能。基于以上分析,本文提出假设2。

H2:在财务指标和文本特征指标的基础上,年报文本主题指标可以进一步提升违规识别模型的性能。

四、研究设计

(一)样本选择与数据来源

由于我国相关的法律法规等都在不断推进,若选择时间过早的样本,样本对应的上市银行的治理结构、经营环境间存在着较大差异,导致样本数据不可比。另外考虑到近期产生违规的公司还未被证监会认定,同时为了研究用于预测违规主题的变化过程,本文选取我国36家A股上市银行在2010—2019年间发布的年报作为研究样本。其中上市银行的年度报告均从巨潮资讯网中下载得到;文本语言特征数据是对银行年报进行文本分析以及人工计算整理的方式取得;财务数据来自于国泰安数据库。最终本文得到215个公司-年度层面的上市公司数据。

(二)变量定义

1.被解释变量

本文的被解释变量为是否违规(),违规数据来源于国泰安经济金融研究数据库()和色诺芬数据库(),并经过人工合并得到。若上市公司在上期年报和当期年报发布之间发生了违规行为,则将上市公司当期样本的变量赋值为1,若上市公司未发生违规,则赋值为0。最终本文得到68个违规样本,147个非违规样本。

表1 主题指标变量定义

2.解释变量

本文的解释变量为文本的主题指标变量。同时为了对比主题指标的预测效果,本文将财务变量、文本特征变量也作为解释变量。

(1)主题指标变量()

本文使用LDA主题模型进行年报主题指标的构建。LDA主题模型可以得到相应数据集的两个概率分布,分别是“文档-主题”概率分布以及“主题-词”概率分布,其中“文档-主题”概率分布就是我们所构建的主题指标。此外,为了研究随着时间推移,与违规相关的主题指标的变化情况,本文采取滚动窗口的方式,将2010—2019年的样本区间划分为五个时间窗口,在五个时间窗口上分别运行LDA主题模型并构建相应的主题指标。表1呈现了每个时间窗口所构建的主题指标变量的定义。LDA主题模型是无监督机器学习模型,只需提供文本集合和要生成的主题数。其中主题数对于LDA主题模型的聚类效果有很大影响。但目前如何得到主题模型的最优主题数这一问题尚未有最佳的方法。在以往的研究中选择最优主题数常用的方法是最小困惑度法,困惑度是指所构建的主题模型对一篇文档属于某一主题的不确定程度。困惑度越小,表示模型对于文本的主题选择越不“困惑”。但研究发现基于最小困惑度法得到的最优主题数数量过多,主题间相似度高,存在冗余情况。

本文首先尝试使用最小困惑度方法来确定最终要产生的主题数量,将主题数分别设置为1至51,分别训练LDA模型并计算模型困惑度。结果如图1所示。结果显示根据最小困惑度方法得到的最优主题数为36个。对36个主题进行可视化,观察主题的分布情况。结果如图2所示(图2中列示了11个主题圈,其他由于占比较小未列示,有需要可联系作者)。图中每一个圆圈代表一个主题,从可视化图中可以看出圆圈之间存在很多重叠部分,表示36个主题间存在很高的重复性即存在冗余主题数,验证了通过最小困惑度方法得到的最优主题数量过多。

图1 困惑度与主题数的关系

图2 36个主题可视化结果

表2 最优主题数

为了避免主题相似度过高,本文借鉴王泽贤的主题数选择方法即最小冗余主题数法,即在初设最大主题数的基础上,采用二分法逐步减小主题数量,使得最终得到的主题两两之间JS散度为0。最终得到的主题数结果如表2所示。

(2)财务变量(-)

本文基于美国学者Dechow研究的F-score舞弊识别模型中的变量体系,并对其变量进行筛选,最终选择12个变量作为本文的财务变量,分别为公司资产、应收账款变动、总应计、软资产占比、现金销售变动、资产回报率变动、净值市价比、前期持有期收益率、并购情况、会计师事务所是否为四大、融资现金流量、重组情况。财务变量的具体定义如表3所示。

表3 财务变量定义

(3)文本特征变量()

本文基于Brown等使用的文本语言特征变量及其构建方法,对36家上市银行在2010—2019年间披露的年报全文,通过文本分析等方式构建文本特征指标。由于美国与中国的年报在披露标准与内容上有所不同,因此本文对其变量进行筛选。最终选择的文本特征变量分别为着重号数量、换行数、标签数、平均句长、词长标准差、段长标准差、平均重复句数、句长标准差、唯一词比例、Coleman-Liau指数、Fog指数、主动句比例、被动句比例、消极词比例、积极词比例。变量的具体定义如表4所示。

表4 文本特征变量定义

(三)模型构建

随着计算机技术的发展,机器学习已经逐渐成为研究的热点,若能使用机器学习识别上市公司的违规行为,对于审计师、投资者以及各类监管机构都能起到重要的辅助作用。识别上市公司的违规行为适用于机器学习模型的分类算法。本文选取目前常用的机器学习分类算法,分别为逻辑回归模型(Logistic Regression)、K-近邻模型(K-nearest neighbor,简称KNN)、支持向量机(Suppprt Vector Machine,简称SVM)、随机森林(Random Forest,简称RF)、AdaBoost(Adaptive Boosting)、多层感知器(Multilayer Perceptron,简称MLP)。本文在五个时间窗口上,将主题指标、财务指标、文本特征指标、主题指标+财务指标、主题指标+文本特征指标分别作为以上机器学习模型的输入指标,并对每个时间窗口后一年的违规情况进行预测,比较不同指标体系、不同机器学习模型在识别上市公司违规时的优劣,探究加入主题指标是否能够提高财务指标或文本特征指标的预测效果。

(1)

(2)

(3)

(4)

(5)

本文构建以上逻辑回归模型验证主题指标的有效性,并与财务指标、文本特征指标及合并指标进行对比分析。模型中为上文中构建的主题指标,-为财务指标,为文本特征指标。同样地,本文还将构建KNN、SVM、RF、AdaBoost和MLP模型,并对不同模型的违规识别效果进行对比。

五、实证结果与分析

(一)描述性统计

1.财务变量描述性统计

本文财务变量的描述性统计如表5所示。表中的财务变量均来自CSMAR数据库,涵盖了我国36家上市银行在2010—2019年间的财务数据,各个财务变量的具体定义如上文表3所示。本文将样本划分为两类样本,分别是正常样本与违规样本,并标记为0、1,为了对比两类样本在同一财务变量上的差别,在表5中对每一类都进行了描述性统计。

表5 财务变量描述性统计

2.文本特征变量描述性统计

本文文本特征变量的描述性统计如表6所示。表中的文本特征变量是对36家上市银行2010—2019年的年报进行文本分析后计算得到的。各个文本特征变量的具体定义如上文表4所示。为了对比两类样本在同一文本特征变量上的差别,本文在表6中对每一类样本都进行了描述性统计。

表6 文本特征变量描述性统计

(二)主题变化情况

本文采用滚动回归验证通过LDA主题模型所提取的年报主题指标与违规之间的相关性以及在不同时间段内与违规显著相关的主题的变化情况。本文的样本区间为2010—2019年,将每五年作为一个时间窗口,最终将样本区间划分为五个窗口,分别是2010—2014年、2011—2015年、2012—2016年、2013—2017年、2014—2018年,在五个窗口上分别运行LDA模型,提取每个窗口年报文本的潜在主题。为了便于展示,本文计算所有主题对应的词语权重向量间的余弦相似度,基于相似度将所有窗口内的单个主题聚合为组合主题,最终在整个样本区间内生成14个组合主题。

图3 组合主题显著性与主题变化情况

为了呈现与违规显著相关的主题在不同时间段内的变化情况,本文分别对每个时间窗口上的主题指标构建逻辑回归模型,根据回归系数的值判断组合主题的显著性。下图3描述了在样本预测年份2015-2019年上每个组合主题是否存在以及是否与违规显著相关。图中正方形表示在50%的置信水平下,该组合主题中至少一个子主题与违规显著负相关且其他子主题与违规均不显著相关;菱形表示在50%的置信水平下,该组合主题中至少一个子主题与违规显著正相关且其他子主题与违规均不显著相关;三角形表示该组合主题中所有子主题与违规相关性均不显著或多个子主题显著但显著性符号相反。

通过图3可以发现存在多个主题与违规显著相关。随着时间的推移,可以观察到某些主题的变化情况,如组合主题2在2015年和2018年中与违规均无显著相关关系,但在2019年与违规呈现出负相关关系;同时随着时间变化,也出现了一些之前未出现过的且与违规显著相关的主题,如组合主题12、13、14,在前两年中未曾出现,在2017年、2018年出现并与违规呈显著相关关系。因此本文认为对于一些新出现的违规行为,尽管手段更加隐蔽且复杂,我们依然可以通过主题指标找到与违规之间的相关关系,从而可有效识别违规。

表7 二分类混淆矩阵

(三)评估指标

在机器学习算法中,常用的评价指标有准确率()、精确率()、召回率()、F1分数和F2分数。为了直观地解释以上指标,本文基于混淆矩阵对以上指标进行定义如表7所示。

基于此,本文将准确率、精确率、召回率、F1分数、F2分数定义如下。

(6)

(7)

(8)

(9)

(10)

式中,表示准确率,表示精确率,表示召回率,F1表示F1分数,F2表示F2分数。

由于在本文中违规样本与正常样本存在不平衡现象,有些机器学习算法会将样本全部预测为无违规从而造成准确率很高,但显然此时准确率指标已经失去参考意义。因此本文选取精确率、召回率、F1分数和F2分数作为分类的评价指标。在审计工作中,重要的是尽可能将违规样本识别出来,因此召回率与F2分数更为关键。由于本文将全部样本划分成到五个时间窗口,并在每个时间窗口上都建立违规识别模型,在每个窗口后一年上进行预测得到模型预测结果,因此下文中的精确率、召回率、F1分数和F2分数都是取五个时间窗口上的平均值。

表8 主题指标和财务指标下的预测效果对比

(四)主题指标与财务指标预测效果对比

为了验证本文构建的主题指标的有效性以及假设H2,本文先将主题指标和财务指标-进行对比。除此之外,本文还将主题指标和财务指标进行合并,同时作为模型的解释变量,来研究主题指标是否可以弥补财务指标中的信息损失,使基于合并指标的模型与基于财务指标的模型相比,预测效果有进一步的提高。因此本文将对、-、+-三种指标体系的预测效果进行比较,并分别构建多种机器学习模型进行对比分析。基于不同指标的模型预测结果如表8所示。

在违规识别中,我们着重关注模型的召回率以及F2分数。从实验结果中可以看出,当采用单一财务指标作为输入指标时,逻辑回归模型Logistic的召回率和F2分数最高,分别为73.84%和65.40%,其次是支持向量机和多层感知器,召回率分别达到6559和6361。且与单一财务指标相比,基于单一主题指标的违规识别模型召回率普遍较低,但其中基于主题指标的多层感知机的精确率和召回率都较高,说明基于主题指标的模型可以即准确又尽可能多地识别出上市公司违规。除此之外,基于单一主题指标的逻辑回归模型Logistic和K-近邻模型的召回率和F2分数也较高。为了探究主题指标的加入是否可以提升财务指标的识别性能,我们着重对比财务指标与主题指标+财务指标的召回率和F2分数,发现与单一财务指标相比,除逻辑回归模型Logistic外,其余五个模型基于合并指标的召回率和F2分数都有较大提升,其中-近邻模型基于合并指标的召回率提升最为明显,相较于单一财务指标,召回率提高了17.12%。实验结果表明,主题指标可以弥补财务指标的不足,提升了财务指标的违规识别性能。

表9 主题指标与文本特征指标下的预测效果对比

(五)主题指标与文本特征指标预测效果对比

为了进一步验证假设H2,本文将主题指标和文本特征指标的预测效果进行对比。同样地,本文也构建主题指标和文本特征指标的合并指标+来探究主题模型是否可以弥补文本特征模型中缺少的语义信息,使得合并指标的预测效果优于文本特征指标的预测效果。基于不同指标的模型预测结果如表9所示。

从实验结果中可以看出,当采用单一文本特征指标进行违规识别时,随机森林RF的召回率最高,达到了68.77%,其次是逻辑回归Logistic和多层感知器MLP,召回率分别为63.76%、60.32%。通过对比单一文本特征指标和主题指标的识别性能可以发现,除随机森林RF外,其余五个模型基于主题指标的召回率都高于基于文本特征指标的召回率,说明在利用主题指标进行识别违规时,集成学习模型可能并不适用。为了探究主题指标的加入是否可以提升文本特征指标的识别性能,我们着重对比文本特征指标与主题指标+文本特征指标的召回率和F2分数。通过对比发现,相较于单一的文本特征指标,除逻辑回归模型Logistic外,其余五个机器学习模型基于合并指标的召回率都有较大提升,其中提升最多的是K-近邻模型KNN,相较于单一文本特征指标,召回率提升了18.05%。实验结果表明,主题指标可以弥补文本特征指标的不足,提升文本特征指标的违规识别率。

六、研究结论

本文基于A股上市银行年度报告的文本数据和相关财务数据,构建了财务指标、文本特征指标,并运用LDA主题模型对年报文本建模构建主题指标,并在不同指标下分别建立机器学习预测模型,以发现上市银行是否存在违规行为。研究发现:第一,基于年报文本所构建的主题指标可有效预测上市银行违规。第二,本文提取出与违规显著相关的主题指标后发现,可用于识别违规的主题并不是一成不变的,呈现出迭代更新的现象。第三,将主题指标与财务指标、文本特征指标合并后共同构建的违规模型的预测效果优于仅使用财务指标、文本特征指标构建的违规识别模型,说明主题指标可提供财务指标和文本特征指标中所缺少的语义信息,能够提升财务指标和文本特征指标违规识别的性能。

猜你喜欢

财务指标年报变量
2017上市公司年报主要财务数据(6)
2017年上市公司年报主要财务数据(1)
吉利汽车的发展战略及财务分析
EVA业绩评价体系应用分析
贝因美股份有限公司偿债能力分析
上市公司2015年年报重要数据
分离变量法:常见的通性通法
沪深上市交通设施产业板块2013年年报主要经济指标
不可忽视变量的离散与连续
轻松把握变量之间的关系