APP下载

基于数据挖掘的上市公司违规行为关联分析

2021-02-12徐静

数据与计算发展前沿 2021年6期
关键词:项集置信度违规

徐静

北京联合大学,管理学院,北京 100101

引 言

依法合规运作并真实、准确、完整、及时地披露信息是上市公司的责任。鉴于上市公司质量对推动资本市场健康发展的重要作用,我国资本市场新规频繁出台,全面趋严的监管环境对上市公司的规范运作提出了越来越高的要求。2020年10月,国务院印发《关于进一步提高上市公司质量的意见》,指出要使上市公司运作规范性明显提升,信息披露质量不断改善,为建设规范、透明、开放、有活力、有韧性的资本市场,促进经济高质量发展提供有力支撑。然而,近年来我国上市公司违规现象时有发生,导致一些上市公司因违法违规频频受罚。据证监会官网公开数据统计,2020年证监会共作出行政处罚决定339 件,涉及信息披露违法、内幕交易、操纵市场、限制期内违法买卖、编造传播虚假信息和超比例持股未披露等,累计罚没款金额52.96 亿元,与2019年罚没金额41.83 亿元相比,同比增长25%。当前,我国证券市场中存在的问题错综复杂,上市公司违规行为呈现出以下特点:(1)违规形式复杂多样,如信息披露虚假、信息披露遗漏、信息披露延误、违规发行、违规担保、违规投资证券等,且往往不是孤立的事件;(2)违规手段推陈出新,欺诈发行、信息披露违法、操纵市场、内幕交易等手段不断增多,且隐蔽性更强,欺骗性更大;(3)违规行为危害巨大,不仅有损上市公司的诚信形象,可能会给投资者带来潜在的经济损失,也不利于资本市场的规范有序发展。因此,如何识别上市公司违规行为并有效防治违规事件的发生一直是备受关注的议题。

监管实务中,中国证监会对上市公司及相关各方实行监督管理,通过会同公安部、最高人民法院、财政部、司法部等部门协同执法,近年来对违法违规主体的责任追究力度不断加大,取得了积极成效。大数据时代背景下,传统手段已难以快速挖掘出违规案件的线索,这给监管部门的防范调查带来了困难和挑战。因此,本文基于上市公司违规行为之间的内在关联,利用关联规则发现算法,挖掘违规事件的关联规则,从中揭示上市公司的违规行为模式。本研究是数据挖掘方法应用于上市公司违规分析领域的新尝试,具有一定的前沿性,研究结果能够为监管部门提供更加多样化的违规案件调查线索和调查方式,有助于推进大数据新型执法。

1 文献综述

1.1 违规动机与影响因素

上市公司为何违规?这仍是学术界研究的一个热点问题。决定和制约企业行为的因素包括企业利益、目标等内部因素,以及经营环境、市场条件、政策法令和法律制度等制度环境。借用舞弊理论,因利益和目标而带来的压力是导致上市违规的根本动因,优化公司治理结构有助于遏制误报信息等欺诈行为[1]。首先,财务压力、财务特征是影响上市公司违规的主要因素,当上市公司面临财务困境或未能实现预期业绩目标时,避免报告负面业绩、虚增公司增长率的动机便会随之产生[2]。吴国萍、马施认为财务压力会对公司形成行为压迫,偿债压力、保壳压力、保盈压力对公司的信息披露违规行为构成显著的影响。其次,公司治理也是影响上市公司违规的重要因素,良好的内部控制和公司治理结构对违规行为具有抑制作用[3]。学者们探讨了大股东控制权[4]、独立董事薪酬激励[5]、高管异质性[6]、CFO 薪酬溢价[7]、董事会背景特征[8-9]等公司治理因素对上市公司违规行为的影响作用。此外,随着研究的不断深入,学者们将影响上市公司违规行为的因素扩展到社会信任[10]、市场化改革和政治关联等外部制度环境[11]。以上研究普遍采用实证研究方法,从中验证各个影响因素对上市公司违规行为是否具有抑制作用及其效果。

1.2 违规类型及其表现形式

当公司治理结构缺失或外部监管、行业规制不到位时,上市公司很可能出于内外压力或自身利益而出现违规行为[12]。美国注册舞弊审查师协会(ACFE)将欺诈界定为腐败、资产挪用和欺诈性陈述,每种行为都具有特定的性质[13]。违规的类型与表现形式复杂多样,按照违规涉及内容,包括重大遗漏、虚假记载、虚构利润、虚列资产、推迟披露、欺诈上市、违规买卖股票、一般会计处理不当、出资违规等。从监管角度来说,这些违规行为可进一步归类为信息披露违规和公司运营违法违规等。一方面,上市公司信息披露有效性体现为真实性、准确性、完整性、及时性和公平性[14]。相应的,信息披露虚假、信息披露遗漏和信息披露延误都是信息披露违规的主要表现形式。公司内部人具有进行会计信息操纵的动机和空间,会计信息虚假陈述的形式一般包括虚假记载、误导性陈述、重大遗漏和不正当披露,它们都是建立在对会计信息重大事件判断的基础之上的[15]。信息披露虚假不仅表现为恶意欺诈,还更多地表现为粉饰报表、过度包装和选择性披露等隐形的虚假披露行为[16]。根据证券法要求,上市公司信息披露应遵循“重大性”标准,应尽可能全面地覆盖重要的信息类型,包括公司的经营战略、资产状况、财务状况、经营环境、人事变动、资本分配等,信息披露遗漏更多地体现在对重大事件的认定存在问题[17]。信息披露延误意味着信息没有在规定时间内披露,也即信息披露不及时,信息披露及时与否会直接影响会计信息质量,信息披露如果不适当地拖延,就可能失去其时效性和相关性[18]。另一方面,引导资本运作的主体使资本良性运营,获得合理合法的增值尤其重要[19]。公司运营违法违规是指上市公司违反证券相关法律法规或公司章程规定,在公司治理、重大事件管理、投资者关系管理、履行社会责任等环节运作不合规,主要表现为违规发行、违规担保、违规投资证券等。此外,上市公司领导人利用职权之便也容易出现违规行为,如领导人违规持股、涉嫌犯罪或失踪等,都会对股东和公司的利益造成严重损害[20]。

1.3 违规行为识别和预警

监管部门对上市公司的违规行为进行及时识别和适当处罚是十分必要的。然而,对上市公司违规行为进行处罚是一种事后的处理手段,相对于事后处罚,如何有效识别上市公司违规行为并进行预测预警更具现实意义,一些学者对此开展了研究。根据前文对违规动机及其影响因素的分析,基于公司治理和财务特征分析,可用于识别上市公司违规行为。如:鞠雪芹、潘爱玲通过研究发现,规模较小、独立董事数量较少、资产负债率高、营业利润率低、非营业利润额在利润总额中所占比重较大的上市公司发生违规行为的可能性更大,应当重点监管[21];查道林、雷光勇认为,总资产周转率越高,总资产收益率越大,独立董事比例越大,审计报告类型为标准无保留,上市公司受到公开谴责的可能性越低[22]。关于违规行为的识别和预警方法,大数据和人工智能技术催生出新的欺诈调查方式,其关键在于利用大数据分析快速发现违规并共享关键调查信息[23]。学者们开始尝试应用数据挖掘方法来构建违规识别和预警模型。Johan Perols 将logistic 回归、支持向量机、人工神经网络、bagging、C4.5 和stacking 等常用的统计模型和机器学习模型用于研究财务报表舞弊,并对不同假设下的检测效果进行了比较[24];刘霞选取新三板市场被处罚公司并与其他未处罚挂牌公司配对作为样本,结合公司财务、治理、市场交易及动因形成指标体系,运用遗传神经网络方法构建了信息披露违规预警模型[25];郦金梁、吴谣、雷曜、黄燕婷把递延所得税异动作为检测和预警公司披露违规行为的指标,通过构建决策树模型,对违规事件实现精准判别[2];卢静、吴青群、陈德人将遗传算法的快速搜索与异常处理判断模块结合,设计了证券内幕交易异常数据自动检索系统,用来监控股票的违规操作[26]。

1.4 现有研究评述

综观国内外研究,针对上市公司违规这一资本市场发展的痼疾问题,学者们开展了持续深入的研究。归纳来说:(1)从研究内容来看,国内外关于上市公司违规行为的研究主要集中在探讨公司治理、内部控制、财务特征与违规行为之间的关系,信息披露违规方面的文献相对较多,经营违法违规方面的学术研究较少,而对上市公司违规行为之间的关联性问题则鲜有提及。(2)从研究方法来看,现有研究普遍采用实证研究方法,探讨公司治理、内部控制、财务特征等因素对上市公司违规行为的影响,在大数据时代背景下,数据挖掘技术如遗传算法、关联规则算法、人工智能模型、机器学习模型等逐渐被运用于违规行为研究,代表了该领域的未来研究趋势和方向。(3)上市公司违规行为关联分析是一个具有现实意义,但限于数据和方法却是一个被相对忽视的问题。因此,基于上市公司大数据及关联规则挖掘算法来研究违规行为间的关联关系,是不同于传统研究的新视角,能够为识别、预测、调查和治理上市公司违规提供支持。

2 研究设计

上市公司违法违规并不是孤立的事件,从违规处罚记录来看,一家公司往往同时存在多项违规行为。可以说,这些违规行为之间存在内在的联系,一种违规行为可能隐含着另一种违规行为,或者一种违规行为可能诱发另一种违规行为。因此,本文运用Apriori 和Sequence 两种算法,基于上市公司违规大数据,通过关联规则挖掘来寻找上市公司违规行为间的有效关联规则。

2.1 数据来源

选择因违规行为受到证监会、证券交易所、财政部等机构处罚的上市公司作为样本,违规数据来自于锐思数据库(http://www.resset.cn)中的上市公司重大事项违规处罚记录。该数据集包括上市公司代码、股票代码、上市标识等公司标识字段,事件标识、事项主体、信息发布日期、信息来源、事项内容等违规事项字段,以及处理机构、处理对象、处理类型、处理原因、涉及内容、罚款金额等违规处理字段。

为了提供更充分的数据支持,本文选取2000-2020年间上市公司违规处罚记录共41 771 条,包含所有行业的A 股、B 股和H 股上市公司,剔除掉有缺失值或违规行为分类不明确的样本,剩余有效样本17 844 个。

2.2 变量定义

针对上市公司违规行为关联问题,违规类型将作为关联规则挖掘中的关键变量。沿用前文对违规类型与表现形式的分析,将所有违规类型分为信息披露违规、运营违法违规及其他类型,进而细分二级或三级共15 个小类。变量名称及代码如表1 所示。

表1 变量定义Table 1 Variable definition

2.3 模型构建

关联反映的是事件和事件之间依赖或联系的知识,关联规则挖掘是数据挖掘的重要研究领域,旨在从大型数据集中挖掘出隐藏的、相关联的项集,用于指导决策。

关联规则挖掘问题的形式化描述是将每条违规处罚记录对应的违规行为看作一个项记为im,由所有违规行为集合构成项集是项的集合。I的任何非空集合X,若集合X中包含k个项,则称为k-项集。将每次违规处罚的记录构成一项事务T,关联规则事务是项集I的非空子集,即Tk⊆I。每个事务都有个标识符TID。上市公司违规数据库实际就是由组成的事务集若X, Y⊆ I且X∩Y= φ,蕴含式或Y⇒X成为关联规则。其中项集X ,Y分别为该规则的前项和后项。

在关联规则中,支持度(support)、置信度(confidence)和提升度(lift)是三个重要的概念。支持度确定规则可以用于给定数据集的频繁程度,而置信度确定Y在包含X的事务中出现的频繁程度。一般来说,关联规则的提升度越大,其价值即有效性也就越大。

上市公司违规行为关联规则挖掘就是在违规行为中寻找满足最小支持度的频繁项集,进而根据置信度阈值构建关联规则的过程,具体包括以下步骤:

(2) 遍历违规处罚信息中的违规行为类型,即构造候选1-项集集合C1,k=1;

(3) 计算候选k-项集集合Ck中各个元素在事务集中的支持度(sppu l),并根据(sppu l)∈min_supp 进行筛选,得到频繁k-项集集合Lk;

(4) 根据k-项集集合构造高阶的候选( 1)k+ -项集集合1kC+,其中1kC+中元素的所有k-阶子项集都是频繁k-项集;

(5)向后遍历,k=k+ 1;

(6)重复步骤(3)、(4)、(5),直至步骤(3)中的频繁k-项集kL元素个数小于等于1,结束循环,获得所有频繁项集的集合L;

(7)根据得到的所有频繁项集进行规制生成和置信度计算,输出置信度大于给定阈值的所有规则结果;

(8) 计算规则的提升度,筛选出提升度大于1的关联规则,并结合违规行为的实际意义对规则进行解释。

为了有效挖掘上市公司违规数据中潜在知识的关联,本文选用Apriori 和Sequence 两种关联规则挖掘算法,分别从静态和动态两个角度,挖掘上市公司违规行为的简单关联规则和序列关联规则。

2.3.1 Apriori 算法

Apriori 算法作为关联规则挖掘技术最为经典和核心的算法,是在相关联的候选项集合中找到频繁多项集的算法,其核心思想在于利用逐层搜索的迭代方法找出数据库中项集的关系,进而形成简单关联规则。简单关联规则的一般表示形式是:

X 称为规则的前项,可以是一个项目或项集,也可以是一个逻辑表达式;Y 称为规则的后项,一般为一个项目,表示结论或事实。

Apriori 算法包括产生频繁项集和依据频繁项集产生关联规则两个部分。

(1)产生频繁项集

对包含项目A 的项集C,将支持度大于等于用户指定的最小支持度候选集作为频繁项集。

则C(A)被称为频繁项集。包含1 个项目的频繁项集为一项集,记为L1,包含k个项目的频繁项集成为频繁k项集,记为kL。Apriori 寻找频繁项集的策略是自下而上,即从少量项目的项集开始依次向包含多个项目的项集搜索,经过不断迭代产生最终的频繁项集。

(2)依据频繁项集产生简单关联规则

选择置信度大于用户指定最小置信度阈值的关联规则,组成有效规则集合。对于每个频繁项集L,计算L 所有非空子集 的置信度,若果大于用户指定最小置信度阈值,则生成关联规则

2.3.2 Sequence 算法

不同于简单关联规则挖掘的静态分析,序列关联分析从所收集到的众多序列中,找到事务发展的前后关联性,可用于推断其后续发生的可能性。序列关联规则的一般形式通常为:

X 称为规则的前项,可以是一个序列、项目或项集,也可以是一个逻辑表达式;Y 称为规则的后项,一般为一个项目,表示结论或事实。

Sequence 算法是一种序列关联规则算法,从发现并描述一个事务序列连续发生所遵循的规律开始,最终生成序列关联规则。Sequence 算法也包括产生频繁项集和依据频繁项集产生关联规则两个部分。

(1)产生频繁序列集

频繁序列是序列的支持度大于等于用户指定的最小支持度的序列。Sequence 算法的基本出发点是,应首先寻找最小频繁子序列,当序列所包含的子序列为频繁序列时,序列才可能成为频繁序列。与Apriori 算法类似,Sequence 算法也是在候选集合的基础上,确定频繁项集、频繁子序列和频繁序列。

(2)依据频繁项集产生序列关联规则

Sequence 算法采用的是一种动态数据的处理策略,它将频繁序列组织成邻接格的形式。邻接是指如果序列A 增加一个最小子序列后就能够得到另一个序列B,则称序列A 和序列B 是邻接的。邻接格能够有效反映频繁序列的内在关系,它使序列关联规则的生成更加准确和快捷。

3 实验与结果分析

本文运用SPSS Modelar18.0 数据挖掘工具,按照跨行业数据挖掘过程标准(CRISP-DM)流程,进行上市公司违规行为的简单关联规则挖掘和序列关联规则挖掘。

3.1 简单关联规则

利用Apriori 节点建模,以上市公司代码作为标识字段,以违规事项作为分析内容,在最小支持度5.0%和最小置信度30.0%条件下,设定最大前项数为3,过滤掉重复和增益系数低的关联规则,共获得有效关联规则9 条。

3.1.1 一项集关联规则

一项集关联规则包括7 条,如表2 所示。

表2 简单关联规则(1 项集)Table 2 Simple association rules (1-itemset)

从一项集关联规则来看,如果上市公司存在运营违法违规行为,包括违规投资证券、领导人涉嫌犯罪或领导人违规持股,那么该上市公司也有很大可能同时存在信息披露违规行为;如果上市公司信息披露虚假,则很可能信息披露延误;如果上市公司信息披露遗漏,往往也伴随着公司运营违法违规。

3.1.2 二项集关联规则

二项集关联规则包括2 条,如表3 所示。

表3 简单关联规则(2 项集)Table 3 Simple association rules (2-itemsets)

从二项集关联规则来看,如果上市公司信息披露虚假并且延误,则运营违法违规的可能性也较大;如果上市公司存在运营违法违规并且信息披露延误,同时也可能信息披露虚假。

3.2 序列关联规则

利用Sequence 节点建模,以上市公司代码作为标识字段,以信息发布日期作为时间字段,以违规事项作为分析内容,在最小支持度5.0%和最小置信度30.0%条件下,设定最大前项数为3,过滤掉重复和增益系数低的关联规则,共获得有效关联规则4 条,均为一项集关联规则,未发现二项集关联规则。序列关联规则如表4 所示。

表4 序列关联规则Table 4 Sequence association rules

从序列关联规则来看,如果上市公司出现运营违法违规,存在违规投资证券、领导人涉嫌犯罪或领导人违规持股等行为,那么信息披露违规便会随之而来,后续很可能就会出现信息披露虚假、遗漏或延误。因此,更多地关注上市公司违规的前项事件,在一定程度上能够减少或规避后项事件发生的可能性。

3.3 样本特征分析

根据上市公司违规行为之间的关联关系链接可生成派生节点,代表存在两个或多个违规行为的样本。为了描述样本群的特征,以违规类型作为条件或预测变量,以上市公司的上市标识、交易所标识、股票上市日、当前状态、所属行业门类及省份与直辖市等为条件变量,进一步进行关联规则挖掘,将置信度较高以及条件中包含违规类型变量的规则进行筛选,得出的相关规则依据置信度排序如表5 所示。

表5 样本群关联规则Table 5 Association rules of sample groups

其中,规则1、规则2、规则4 表明了上市公司的上市标识、交易所标识、股票上市日期、所属行业门类及地域特征与违规行为之间的关联关系;规则3、规则5 的条件中包含上市公司运营违法违规信息,连同其他条件,在高于65%的置信水平上会存在信息披露违规。分析条件变量可以看出,与上市公司信息披露违规密切关联的因素主要有A 股市场、主板、制造业、广东省等,说明符合规则条件的上市公司较其他类型公司而言违规的可能性更高。需要说明的是,具有上述特点的上市公司本身数量较多、所占比例较大,数据集中对应的违规事项记录也相对较多,关联规则挖掘出的违规条件,大体上反映了违规上市公司样本的基本特征。

4 结论与局限性

本文运用Apriori 和Sequence 关联规则挖掘算法,对上市公司违规行为间的关系进行了关联规则挖掘。主要研究结论如下:(1)上市公司的违规事件往往不是孤立发生的,一种违规行为可能关联着另一种或多种违规行为。这种关联关系可以从静态和动态两个角度进行解读,上市公司可能同时存在多种违规行为,一种违规行为可能会诱发其他的违规行为。(2)根据Apriori 和Sequence 关联分析结果,公司运营违法违规作为前项更容易引发信息披露虚假、遗漏或延误等违规。从违规动机及其影响因素分析可知,当上市公司运作存在不规范时,最终从其财务报告及相关信息披露上会得以反映,因而这种前项和后项关系符合上市公司违规的基本逻辑。(3)违规样本群在上市标识、交易所标识、股票上市时间、所属行业和地域等方面体现出一定的特征,可用于违规行为的识别和预警。补充收集违规上市公司样本的财务数据及其他信息,进而挖掘上市公司违规行为的更多特征,将是作者后续开展深入研究的方向。

本研究的贡献在于,基于上市公司大数据及关联规则挖掘算法研究违规行为间的关联关系,基于违规动机及其影响因素分析,从理论层面解释了关联规则的合理性。研究结果对于上市公司违规行为具有预警作用,能够为识别和预测上市公司违规行为提供线索,从一种违规行为可以预测与其关联的其他违规行为,因而有助于监管部门依据违规行为的关联规则开展案件调查,具有重要的应用价值和现实意义。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢

项集置信度违规
基于数据置信度衰减的多传感器区间估计融合方法
违规借调的多重“算计”
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
硼铝复合材料硼含量置信度临界安全分析研究
违规动火作业致9死18伤
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
违规试放存放 爆炸5死1伤
不确定数据中的代表频繁项集近似挖掘