基于网络舆情的企业财务危机动态预警
2017-01-10段珊珊朱建明
段珊珊,朱建明
(中央财经大学 信息学院,北京 100081)
基于网络舆情的企业财务危机动态预警
段珊珊,朱建明
(中央财经大学 信息学院,北京 100081)
当前我国企业面临的危机呈现复杂化与多样化的特点,财务信息披露质量问题导致基于财务指标的危机预警模型频频失准,而引入的非财务指标依赖于特定样本无法适应新危机的特性。为获取全面而客观的企业信息,提出基于自媒体中60家上市公司的相关评论,获取网民评论纵向数据流,通过情感分析处理形成网络舆情流指标,在此基础上结合财务指标,调节模型时间窗口宽度以连贯地动态反映企业财务状况,建立基于网络舆情的财务危机动态预警模型。实证表明:引入网络舆情指标的财务预警动态模型可获取最佳时间窗口宽度,预测效果显著优于仅包括财务指标的静态预警模型,具有更好的适应性。
网络舆情;情感分析;财务危机预警;时间窗口
一、引 言
在新经济环境下,企业面临的危险和挑战呈现出新的特征,财务危机的新样本企业随着时间的发展不断出现。企业披露的财务报表作为获取企业经营状况异常的重要信息源,在财务危机的预警过程中的重要性不言而喻。然而在我国资本市场尚未完善的背景下,出于逃避政策限制,达到扩容资金、操纵股价、扩大融资能力等目的,企业年报信息时常失真,财务信息披露质量问题导致预警模型预测失准[1]。现代企业的经营如同一个有机的生命体,在不断地进行自身的新陈代谢时,也保持与外界进行资源交换。在企业生命周期的不同时期,企业的市场环境、发展战略、人力资源特征等方面都有显著的差异。随着企业经营状况或社会经济环境发生变化,新危机爆发的原因及背景往往不同于之前,已有文献针对企业某一时间点引入的非财务指标相对片面,无法响应新经济环境下危机的新特性,这种模型必然不再能够满足新的预测需求,财务危机模型与企业现实的财务状况严重脱节。
网络大数据中蕴含的丰富社会经济信息提供了预测社会经济的补充工具,尤其自媒体中的观点自由、更加真实,这些信息等数据往往在不经意间透露了企业的经营状况,并且涵盖的范围非常广泛[2]。企业的经营状况信息不仅体现在其主动透露的财务数据中,也隐含于被动的网络信息披露中。舆论导向往往难以受到企业的操纵,并且在演变过程中形成多阶段舆评数据流,往往能够解释企业生命周期多个阶段的运营状态更迭,是极有价值的信息源。
二、研究综述
财务危机预警在过去几十年中一直是研究热点[3]。由于财务指标具有明显的滞后性、主观性等特点,境内外学者对非财务指标的引入进行了积极的探索。Ohlson[4]引入国民生产总值、股票价格作为非财务指标。Campbell et al[5]将证券市场交易数据用于财务危机预测,研究发现低股票收益率和高股票波动率将提高企业陷入财务危机的概率。Tinoco et al[6]提出宏观经济指标、市场变量和财务指标的结合能够解释企业财务风险。Laitinen et al[7]以文化背景为调节变量,发现文化环境、偿债能力在财务危机的预测中扮演着重要的角色。
随着国内财务危机预警的研究,国内学者也为财务预警指标的选择做出贡献。吴星泽[8]认为,企业陷入财务危机一般是内外因的共同作用所致,由诱发和抵制财务危机两种力量决定。谭久均[9]以股票交易数据建立违约距离指标,研究表明违约距离可提升财务预警模型的拟和优度和预测能力。
从现有研究成果可以看出,非财务指标的引入能在一定程度上解释财务危机的发生。但非财务指标的选取存在片面性和主观随意性的问题。网络大数据中蕴含的丰富社会经济信息为预测社会经济提供了新工具。目前利用从互联网获得的数据进行研究,主要是从对网络舆评的情感分析来实现。Ranco et al[10]认为一些复杂系统的行为通过社交媒体得以体现,研究表明推特(Twitter)平台中的舆评与金融市场的表现之间存在相关性,特别是,Twitter信息量达到峰量时,其情感倾向能预测累积异常报酬率的趋势。Zheludv et al[11]又进一步对网络舆情在金融市场的预测展开了有效性验证,证明引入Twitter的情感倾向后,对S&P500 指数的预测率比只使用Twitter消息量的更高。李金海等[12]计算在线评论的情感倾向,以判断网络口碑现状与走势,运用智能信息处理方法进行口碑危机的评估诊断,实现企业网络口碑危机智能化预警功能。宋彪等[2]提出了以网民为企业“传感器”的思想,基于互联网中相关在线信息,并结合网民信息发布频次,形成传感信号加入预警模型,显著提高了中长期预测的准确率。
从已有文献来看,以微博和推特为代表的社交平台中的舆情与社会经济活动密切相关。然而企业发生财务危机存在累积性效应,旧企业样本作为可参照的特征库,在企业生命周期的不同阶段,网民对企业的整体看法不是一成不变的,即群众情绪随公司经营状况和社会经济环境演变,新企业样本更新特征库中的危机特征。基于上述分析,尝试利用企业舆评信息流中情绪波动情况,引入网络舆情指标,建立适应性时间窗口的SVM预测器。
三、基于网络舆情的财务危机动态预警
1. 网络舆情变量
大数据网络媒体是社会网络舆情的主要载体之一,在表达社情民意、民众心声等方面发挥了重要作用[13]。在互联网中,网民通过博客、论坛等获取、发布、交流信息。相比传统媒体而言,自媒体中的舆评具有信息多元、及时更新的特点。真实有价值的舆评往往是内心比较真实的写照,可反映人们的行为倾向。网民行为和各种需求的表达成为舆情分析的驱动力。
由于上市公司利益相关者群体庞大,受关注程度高,其网络舆情解释了企业在社会网络中的嵌入型影响,并具有内容庞杂、现实互动性等特点。第一,上市公司在信息披露制度要求下,定期向公众公开资产、财务信息。依托于这些信息,企业的顾客、供应链伙伴、投资者等相关者的意见和情绪通过网络途径释放。不管是利空还是利好信息,都可能在网络上畅通无阻,从而使越来越多被掩盖的事件公诸于众。第二,由于网络传播的快捷性以及网络共同体的存在,当网民就社会经济环境中企业的问题表达观点和立场倾向时,意见在一个复杂的互动环境中快速传染,舆评成为现实事件爆发或者恶化的催化剂。因此社会经济问题的酝酿、发展往往都有舆情信息表现。
2. 模型
随着社会经济环境变化或者自身所处生命周期的推进,企业的财务状况呈现新的特征。在公司维持财务困境的定义标准不变的前提下,当公司的样本集分布发生变化时,新公司样本的舆情信息对新环境下公司的新经济特性敏感度最高。考虑到企业经营的连贯性,本文结合有效的旧样本信息,引入不断流入的新样本数据更新样本数据集,建立动态预警模型。
孙洁等[14]提出结合当前财务困境概念特征,更新当前时间段备选样本数据集来动态更新支持向量机(Support Vector Machine,SVM)预测器。在此基础上,考虑新旧样本对企业新经济特征的敏感度不同对模型进行了调整。假设对于任意当前时间段样本数据回溯扩展信息流,对每次回溯建立预警模型,以最高准确率作为筛选标准决定最佳宽度TW,并利用t*-TW预测t*时刻的财务困境。由于企业在线信息的高噪声、不稳定等特性,时间越近的数据对未来的影响越强烈,能提供的信息也越丰富,因此,来自不同时间段的样本对模型预测能力的影响程度不同,在构建时间窗口时,由远及近赋予时间段截面信息的权重逐渐增加,基于此,本文建立了时间加权的自适应时间窗口模型。
四、研究设计
1. 样本选取与数据来源
应用于财务分析的网络信息数据源主要有三种类型:新闻网站是获取投资者情绪的重要来源[15];搜索引擎中相关股票的搜索量可预测市场波动[16];社交媒体可度量群众情绪及投资者行为[11]。在测量群众情绪和投资者行为方面,社交媒体越来越引起重视。选取东方财富股吧中的第三类信息作为研究对象。东方财富股吧是中国人气最旺的股票交流社区,投资者对感兴趣的话题在股票专题论坛集中讨论,虚假信息相对较少,对有关公司股票收益的预测甚至比专业分析师准确率更高。利用网络爬虫,以年度为基本单位,收集了从2010—2013年关于60家上市公司的东方财富股吧网评信息。
对于网络舆情信息的具体处理,首先利用互联网爬虫技术对样本公司的在线舆评进行采集,对其进行异常值结构化处理,使原始数据格式规范统一,将无人参与评论的帖子视为无意义的灌水帖,放弃对此类帖子的抓取。以情感文本词典作为分类特征,利用朴素贝叶斯方法构建分类器,对股吧帖子内容进行情感分类。在此,考虑到网络语言及证券行业术语的特殊风格,以股吧的网评构建情感文本词典,使用SnowNLP中贝叶斯文本分类方法对词典进行学习后,建立情感分析工具。按年份统计积极和消极情感的频次,将其转换成数值指标,即情感极性,如图1所示。
考虑到各个行业的财务特征并不相同,而制造业在上市企业中占比最大,正常企业的数量远大于具有危机风险的企业。研究中以制造业为模型研究的样本企业,将会使得模型在实际应用中更具有代表性。在沪深两市中,危机企业的数量远远小于正常企业。为模拟财务危机企业的数据不平衡情况,将危机企业和正常企业按1:2的比例随机抽样配比。2015年,沪深两市(A股)共有56家制造行业的上市公司被特别处理,本文力求涵盖各行业有代表性的ST公司进入样本组,共抽取20家,考虑到非随机的样本选择产生结果严重有偏误,随机配比正常企业40家。其选择的原则为:危机企业样本来源为上市时间超过5年,于2015年首次因财务状况异常而被沪深两市特别处理的制造业公司。正常企业的样本采取随机抽样,上市时间超过5年,且从未被特别处理的工业制造业企业。由于证监会根据上市公司前两年发布的年报中的业绩来决定是否对其进行特别处理,因此直接采用上市公司前两年的年报预测公司是否会被ST很可能夸大模型的预测能力。因此搜集2010—2013年样本企业的相关财务指标数据。财务指标的采集及计算源自RESSET金融研究数据库。
2.研究变量
目前缺乏具体的经济理论指导财务指标的选取,而公司出现财务危机的本质原因并不一定完全相同,几个简单的指标不能完全涵盖。由于SVM对非线性变量处理效果较佳,变量间的相关性并不影响数据分类效果,因此力图在财务指标中包含尽量多的信息,参考目前财务危机预警的大量研究成果,遵循变量选择的科学性原则和数据获取的可行性原则。在输入变量方面,从偿债能力、营运能力、盈利能力、现金能力、资本结构和成长能力等6个方面选择了29个变量作为备选考察变量。指标分别如表1所示。
表1 29个变量含义
确定输出变量,是对财务危机的界定。在实证研究中,学者们往往以某类重要事情的发生(某个阈值)作为企业陷入财务危机的标志。国内学者倾向于用“被特别处理”(ST)作为企业财务危机具有财务风险的标志。为方便学者之间的成果相互比较,将ST作为模型输出变量。
3. 研究方法
(1)基于SnowNLP的文本分类
基于SnowNLP对文本进行倾向性判断。SnowNLP是基于python的中文文本分析库,提供了最基本的训练文本词库,并基于NLP方法对训练集进行情感标注,实现文本的倾向性分析。本文的文本情感样本取自东方财富股吧,通过统计股吧评论中各情感倾向类别的数量,来评价一个企业的社会舆论走向。
SnowNLP以基本的朴素贝叶斯文本倾向性分类算法,构建文本情感分类器,并提供了以电商网站数据为训练集的positive和negative语料库,为适应股吧特殊语言风格,构建新的情感词典:从股吧中随机抓取帖子内容,选择出与财经股票相关的帖子,对帖子中内容按句子分解,人工将句子分为正面和负面两类。利用SnowNLP对两类帖子进行分词处理,得到的词语为积极情感词典和消极情感词典,并自训练分类器。在分类时,SnowNLP情感分析得到的结果是正向样本空间的概率,取值范围是[0,1],将大于0.6的文本判定为积极文本,0.4~0.6判定为中性文本,小于0.4的判定为消极文本,其后统计各个类别的文本数量,根据频次判断此企业的社会舆论走向。
(2)输入指标筛选
在分类的预测问题中,能否从众多特征中识别有效特征决定了后续算法成功与否,保证特征信息的完整性和去除无效的冗余信息是首要任务。特征选择能剔除不相关或冗余的特征,从而达到减少特征个数,提高模型精确度的目的。不同财务指标对财务困境的预测能力不同,并且随着经济环境的变化或者企业经营周期的推进,同一财务指标的判别能力也可能发生改变。
在实证研究中,为去除噪声的影响并发挥最近时间样本的最大效用,对当前年度采用序列浮动前向选择(Sequential Floating Forward Selection,SFFS)的特征选择方法。序列浮动前向选择是一种启发式搜索算法,当备选特征值集很小时表现良好,特征选择过程如图2所示。从空集开始,每轮在未进入特征集的特征中选择一个子集x,使加入子集x后达到最优,然后在已选择的特征集中选择子集z,使去除子集z后评价函数达到最优[17]。利用SFFS算法能够去除无效和鉴别能力弱的特征值,但无法解决相关性问题。虽然财务报表得到的财务指标之间往往具有很强的线性相关性,但在后续的预测模型中,结合使用RBF核的非线性SVM,变量间的相关性对问题的影响不大。为将特征提取过程嵌入到动态建模过程中,每当时间窗口边界向未来推移时,均按该方法对最新当前年度进行特征提取后再重构SVM预测器。
(3)时间加权的自适应时间窗口SVM模型
(1)
即
yi[wφ(xi)+b]≥1 (i=1,…,N)
(2)
其中,wT代表权向量,b代表偏置。
此时的分类间隔为2/(‖w‖)2,为了使得分类的确信度尽量高,需要让所选择的超平面能够最大化分类“间隔”值。因此,构造分类间隔最大的最优超平面问题就可以转化成:
(3)
s.t.
(4)
式(4)中,ξi为松弛变量,表示对应数据点xi偏离超平面的量,使用松弛变量ξi来允许一小部分训练样本被错误分类。C∈R+为常数,通常称为惩罚参数,表示对错误分类的惩罚程度,用于控制目标函数中寻找最大间距的超平面和保证数据点偏差量最小之间的权重。
在时间向现在推移的过程中样本数据的重要性逐渐提高,与此同时,过久的样本数据可能包含过多的无用信息,并使得建模效率低下,因此引入新样本数据策略的关键是:如何根据当前的财务状况自适应地调整时间窗口的宽度。时间窗口的宽度决定了不同时间段的样本权重的具体分配,基于采集样本时间越近,样本重要性越大的假设,对于每个由远及近的时间段里的差异赋予逐渐增加的权重,Tay et al[18]提出对于金融数据加权,并指出指数加权方法效果优于线性加权,利用指数加权方法,构造分类间隔最大的最优超平面问题就可以转化成:
(5)
其中,
(6)
引入拉格朗日函数,将该问题转化为对偶问题:
(7)
s.t.
(8)
对于线性不可分的情况,一般将非线性样本映射到高维空间中,使其线性可分。核函数K(xi,xj)能简化映射空间中的内积运算,通常而言,RBF核是合理的首选。δi为每个训练样本对应的拉格朗日乘子,非零δi对应的训练样本被称作支持向量。
对于当前时间段t*∈[t,t+p]而言,假设某一时间段(t+i)(i∈[-q,p])内可获得的样本数据以批为单位,各批样本的集合记为Bt*。可利用从(t-p)到t*之间的样本数据来构建不同宽度时间窗口,根据时间窗口的宽度决定不同批次的数据的重要程度,并以加权后的各批次样本数据构建财务困境预警模型。在t*向后滚动的过程中,均需从Bt*中选择适合当前财务特征的子样本来动态构建预警模型。
对于当前时间段t*而言,样本批次bt∈[bt-q,bt*],按时间由近及远选择样本数据子集,共有(t*-t+q+1)个当前时间窗口的备选方案TWd(d=1,2,…,t*-t+q+1),例如,方案1:TW1={bt*},方案2:TW2={bt*-1,bt*},对每一份备选方案进行k重交叉验证,得到TWd在当前批样本数据上的k重交叉验证准确率,记做K-Accuracy(TWd)。在此基础上,按各备选方案在当前时间批次Bt*上的k重交叉验证准确率最大的原则确定时间窗口宽度,即:
TW=TWdif
(9)
五、实证分析与实验
基于网络舆情信息流的财务危机动态预警模型,适用于企业动态的财务状态。本实验模拟在时间推移至某一时点下的建模,假设当前时间推移至2015年,即以2013年及之前年度的财务数据建立SVM预测器,以此预测在2015年企业是否陷入财务危机,引入网络舆情指标,结合之前的财务指标建立预测器,比较引入舆情指标前后的事前预测效果。以2013年为起点,以1年为移动步长,在时间窗口向前扩展过程中的每一时间窗口,通过SFFS法对29个财务指标进行特征选择,将相关指标引入模型,为了探索适合当前的财务困境预警模型的时间窗口宽度,对TW∈{1,2,3,4}中的每个取值进行结果实验,实验结果如表2所示。
表2 效果对比情况
表2中列出了在时间窗口宽度由1年扩展到4年时,引入网络舆情指标前后的SVM动态建模以及以传统的t-2财务指标建模方法的测试准确率。本实证结果中,在不同的时间窗口宽度时,引入网络舆情指标对准确率均有一定程度的提高。当样本集TW=2时,财务预警模型准确率达到最高,其中引入网络舆情指标的模型的准确率比仅引入财务指标模型高达80%。其中,当采用财务指标进行财务预测时,ST企业中有3家被误判,判正率达到了70%;正常企业中有2家被误判,判正率达到89%。在融入网络舆情指标进行预测时,正常企业有1家被误判,判正率达到94%;ST企业有2家被误判,判正率达到了80%。可见引入后对正常企业和ST企业的预测能力均有改善。
对于TW =4时,网络舆情指标的引入并未明显提高预警效果,这也反映了网络舆情的数据并非一旦选入永久适用,在企业进入生命周期的另一阶段后或者社会经济环境发生重大变化后,之前的舆情信息可能已经失效甚至与现在发展状况相悖,干扰模型的预警能力。
如图3所示,实验结果表明:相比于传统以TW为1的t-2年截面财务指标,时间窗口的宽度扩展至2和3时,变量中涵盖以往年度及可获取的最近年度数据,预测准确率显著提高。在实验样本中,TW =4时的准确率明显低于其他模型,这说明2010年的财务指标及网络舆情信息过于陈旧,包含了过多无用信息而使得模型数据集臃肿低效。由此可知,建于某一时间段的SVM静态模型未必能充分考虑企业未来财务困境的特征,财务困境特征随环境的变化而不断变化,以往年度旧样本中包含的信息不可轻易舍弃,有必要充分考虑纳入模型的指标时间跨度,选择适合当前环境状况的财务困境预警动态建模机制。
六、结束语
在前人研究的成果上,提炼出企业偿债能力、盈利能力、现金流量、资本结构、成长能力和企业营运能力六类共29个指标,依靠网络舆情的群体智慧、不易被权威操纵的特性,利用网络舆情的情感极性作为投资者行为的映射,在财务预警模型中引入网络舆情指标。由于时间推移过程中,企业财务危机的发生是一个阶段性的过程,网络舆情和财务数据是随企业运营环境和运营情况动态变动,新样本中的信息价值高而旧样本中的信息不容忽视,因此通过时间窗口宽度控制信息流中新旧样本的比例。通过对2010年至2013年60家上市企业中股吧信息的爬取和过滤,利用情感分析对舆评进行整理形成网络舆情指标,与财务指标结合对研究假设进行实证后,发现引入网络舆情指标的自适应财务危机动态预警模型,相对财务指标预警模型,利用自适应窗口宽度调节获取适当的时间窗口宽度,预测效果明显提高,当时间窗口宽度过大时,样本中包含过多的冗余信息,对模型的预测准确度造成干扰。总体看来,在动态变化的复杂社会环境中,依靠一段时间内的舆情信息流,对提高财务预警的精度具有显著的正面影响。
[1] 陈收, 赖柏纯, 杨宽. 基于信息披露质量的财务预警研究[J]. 经济与管理研究, 2015(8): 122-129.
[2] 宋彪, 朱建明, 李煦. 基于大数据的企业财务预警研究[J]. 中央财经大学学报, 2015(6): 55-64.
[3] Geng Ruibin, Bose I, Chen Xi. Prediction of financial distress: an empirical study of listed Chinese companies using data mining[J]. European Journal of Operational Research, 2015(241): 236-247.
[4] Ohlson J A. Financial ratios and the probabilistic prediction of bankruptcy[J]. Journal of Accounting Research,1980,18(1): 109-131.
[5] Campbell J Y, Hilscher J, Szilagyi J. In search of distress risk[J]. Journal of Finance, 2008, 63(6): 2899-2939,
[6] Tinoco M H, Wilson N. Financial distress and bankruptcy prediction among listed companies using accounting market and macroeconomic variables[J]. International Review of Financial Analysis, 2013(30): 394-419.
[7] Laitinen E K, Suvas A. Financial distress prediction in an international context——moderating effects of hofstede's original cultural dimensions[J]. Journal of Behavioral & Experimental Finance, 2016(3): 9-98.
[8] 吴星泽. 财务预警的非财务观[J]. 当代财经, 2010(4): 122-128.
[9] 谭久均. 财务指标与违约距离相融合的上市公司财务预警模型[J]. 系统工程, 2005(9): 115-121.
[10] Ranco G, Aleksovski D, Caldarelli G, et al. The effects of twitter sentiment on stock price returns[J]. PLos One, 2015(9): 1-21.
[11] Zheludev I, Smith R, Aste T. When can social media lead financial markets[J]. Scientific Reports, 2014(4): 74-89.
[12] 李金海, 何有世, 马云蕾, 等. 大数据时代基于在线评论挖掘的企业网络口碑危机预警研究[J]. 情报杂志, 2015(2): 53-58.
[13] 林敏. 网络舆情: 影响因素及其作用机制研究[D]. 杭州: 浙江大学, 2013.
[14] 孙洁, 李辉,韩建光. 基于滚动时间窗口支持向量机的财务困境预测动态建模[J]. 管理工程学报, 2010(4): 174-180.
[15] Tetlock P C. Giving content to investor sentiment: the role of media in the stock market[J]. The Journal of Finance, 2007(62): 1139-1168.
[16] Da Zhi, Engelberg J, Gao Pengjie. The sum of all fears: investor sentiment and asset prices[J]. Social Science Electronic Publishing, 2013, 66(5): 1461-1499.
[17] 车红昆, 吕福在, 项占琴. 基于顺序向前浮动搜索时频优选特征的缺陷识别[J]. 浙江大学学报(工学版), 2011(12): 2235-2239.
[18] Tay F E,Cao L J. Modified support vector machines in financial time series forecasting[J]. Neurocomputing, 2002: 29(4): 847-861 .
Financial Distress Dynamic Warning Based on Online Public Opinion
DUAN Shan-shan,ZHU Jian-ming
(School of Information, Central University of Finance and Economics, Beijing 100081, China)
Considering the fact that financial information disclosure quality of listed company cannot be guaranteed, and non-financial indexes rely on specific samples, a financial warning index system based on online public opinion is established. In order to obtain full information of enterprises, 60 listed companies in self-media is collected and sentiment analysis is applied to form the online public opinion index. Then, the financial dynamic warning system is created by integrating the financial index and online public opinion index with the best length of time window. The empirical results show that the introduction of financial distress dynamic warning based on online public opinion leads to the improved accuracy in the financial distress forecast and it is also more adaptable.
online public opinion; sentiment analysis; financial distress warning; time window
2016- 08 - 16
国家自然科学基金项目(61272398);国家社会科学基金重点项目(13AXW010);北京市哲学社会科学重点项目(14JGA001)
段珊珊(1993—),女,山东烟台人,中央财经大学信息学院2015级硕士研究生,主要研究方向为信息经济。
F275
A
1008-7729(2016)06- 0031- 08