基于句子语义挖掘的上市公司风险事件知识聚合模型
2022-03-24谭明亮游强华杨达森周禾深唐晓波
谭明亮,游强华,杨达森,周禾深,唐晓波
(1.川北医学院 管理学院,四川 南充 637100;2.中国人民大学 信息资源管理学院,北京 100872;3.武汉大学 信息管理学院,湖北 武汉 430072)
上市公司在现代经济发展中扮演着十分重要的角色,是证券市场的基石以及推动经济发展的核心动力。目前中国A股市场已有四千多家上市公司,股市总市值仅次于美国,达到了60万亿元以上,占整个国内生产总值总量的比例达60%以上。在美国、英国和加拿大等证券市场发达的国家,股市总市值往往会超过该国的GDP总量。与此同时,上市公司一旦发生重大风险事件会导致巨大的社会成本和经济成本损失。一方面,这会让投资者、债权人等利益相关主体蒙受巨大的经济损失,沉重打击人们对上市公司和证券市场的信心;另一方面,这也会对证券市场的运行秩序和稳定发展造成一定的冲击,甚至会引发相应的连锁反应,从而影响到整个金融市场的稳定性,使得发生系统性金融风险的概率增加[1]。
大数据时代,对上市公司风险事件相关的多源异构文本数据资源进行有效的挖掘和聚合,从而为投资者、债权人、银行、基金管理公司、证券公司和政府监管部门等主体的金融管理决策提供智能化的决策支持,具有十分重要的应用实践价值。当前的研究主要集中于金融事件的表示和抽取,以及基于金融事件实现股票预测、行业趋势分析等领域应用。但是通过从非结构化文本数据中抽取金融事件,并对其进行形式化表示的方式来实现金融知识服务的准确率和可用性还不够高,并且会损失部分对决策有价值的情报知识。文章的研究视角则是以句子为粒度,将上市公司风险事件相关的重要信息按照主题进行聚合,从而为上市公司风险事件监测提供完整清晰的视图。
1 相关研究
(1)金融事件智能分析处理。当前国内外针对金融事件智能分析处理的研究主要集中于:①金融事件的表示,主要研究金融事件的形式化表示,如强韶华等[2]将本体和案例相结合来实现金融事件表示。②金融事件抽取,主要研究如何从财经新闻、上市公司公告等非结构化文本数据中抽取出事件类型、事件元素和触发词等事件知识,如QIAN等[3]综合利用词嵌入、聚类、分类等技术来从财经新闻中识别和抽取企业的商业事件。③基于金融事件的领域应用,主要研究基于文本中的金融事件来实现股票预测、上市公司风险识别和行业趋势分析等领域应用,如HAN等[4]发现财经新闻文本中的事件信息在股票收益分析和行业趋势分析等多个方面有着重要的应用价值。
(2)知识聚合。知识聚合是图情领域近些年来的热点研究课题之一,旨在对知识资源进行动态关联和筛选组织,以实现知识单元的有机连接和知识资源的多维组合,从而为用户提供智能化的知识服务[5]。当前的研究主要针对图书馆、档案馆、网络社区中的知识资源进行聚合,相关研究文献主要是从词语和篇章两种粒度来实现文本资源的聚合[6]。一篇文档中可能包含了多个主题的多层语义内容,以篇章为单元实现文本资源聚合粒度过粗;而词语表征文本资源内容的能力有限,可读性和可理解性较差。句子是保持语义完整和逻辑连贯的最小文本单元,具有完整的语法和语义结构,包含了清晰、丰富和具体的语义语境信息,可读性和可理解性高。当前将句子作为知识聚合粒度的研究还较为缺乏,文章以句子粒度来对上市公司风险事件相关的文本资源进行有效聚合,通过主题报告的形式为管理决策者提供智能化的知识服务。
2 模型构建
上市公司在经营管理过程中一旦发生重大风险事件,需要根据证券监管部门对上市公司信息披露的相关规定和要求,在临时公告中进行及时、准确地披露和说明事件的起因、目前的状态和可能产生的影响。与此同时,各种新闻媒体和网站也会进行各种采访、调查、跟进和报道。上市公司的临时公告和新闻报道数据具有价值性高、及时性强、可获得性高的特征,为开展上市公司风险事件监测提供了重要的数据源,但是若不对其进行智能化的处理而直接将其推送给决策者,这势必会造成决策者的信息过载,这是由于以下两点原因。
(1)上市公司一旦发生重大风险事件,除了上市公司发布的临时公告文件以外,各种新闻报道往往层出不穷,其中包含了很多上市公司在临时公告文件中未披露的对管理决策有重要价值的信息,上市公司未披露这些信息的原因在于这些信息不属于有关部门规定的上市公司应当披露的信息的范畴,例如新闻媒体报道的长生生物被多家基金公司下调估值等情况。
(2)单篇临时公告、单篇新闻报道以及多篇临时公告和新闻报道组成的文本集合在内容上往往包含了多个事件主题。例如,针对长生生物疫苗事件的单篇新闻报道“被证监会立案调查,长生生物六个跌停后股权质押风险暴露”内容上就包含了长生生物被证监会立案调查、股价连续跌停以及股权质押风险暴露等多个事件主题。
为了帮助决策者及时、动态、持续地跟踪和掌握上市公司风险事件的相关情况,笔者以文本数据挖掘、知识组织和知识服务等领域的理论、方法和技术为基础,构建了由数据采集与数据预处理模块、知识获取与知识组织模块、知识利用与知识服务模块等3个模块所构成的基于句子语义挖掘的上市公司风险事件知识聚合模型,如图1所示。
图1 基于句子语义挖掘的上市公司风险事件知识聚合模型
数据采集与数据预处理模块主要对上市公司的临时公告和新闻报道文本数据进行采集,并完成数据的预处理工作;知识获取与知识组织模块的任务是构建金融情感词典以及提取上市公司风险事件相关的文本数据,该模块需要基于种子情感词、Word2Vec词向量模型和外部知识库半自动构建面向金融领域的情感词典,并利用构建的金融情感词典来提取与上市公司风险事件相关的临时公告和新闻报道文本数据;知识利用与知识服务模块的任务是生成上市公司风险事件的主题报告并实现主题报告的自动推送,该模块利用LDA主题模型和BERT模型来捕获和表示句子的语义特征,并将获取到的句子语义特征进行融合,对句子进行聚类和重要度计算,形成上市公司风险事件的文本主题报告,并将其推送给管理决策者。
3 金融情感词典的构建与文本数据的提取
上市公司的很多临时公告和新闻报道的内容是关于上市公司日常经营管理活动中的正常事件甚至是利好事件,例如订立重要合同、获得大额政府补贴等事件。而文章所需要分析和挖掘的是上市公司风险事件相关的临时公告和新闻报道数据,因此需要对采集到的临时公告和新闻报道文本进行提取。对于上市公司临时公告和新闻报道文本数据的提取手段主要有如下两种:通过收集正负样本来训练机器学习模型,然后利用拟合的模型来实现文本的自动分类;通过构建领域知识库来对文本进行自动提取。文章通过半自动构建领域情感词典来实现临时公告和新闻报道文本数据的提取,这也可以为金融决策支持的相关研究和产业实践提供可复用的知识库和易于操作的方法。
3.1 中文金融情感词典构建的必要性
LOUGHRAN等[7]研究发现,英文通用情感词典(哈佛情感词典)中几乎75%的消极情感词汇在金融文本中并非表达的是消极负面的情感。例如通用情感词典中的消极情感词“癌症(cancer)”一词在上市公司的年报、招股说明书和新闻报道等金融文本中往往表达的并非是消极负面的情感,而可能是一些从事生物医药的研发、生产和销售的上市公司用于阐述癌症相关的药物研发和专利技术等。LOUGHRAN等[7]针对通用词典在金融文本情感分析中存在的缺陷,构建了一个包含积极、消极、诉讼、不确定性、模态和约束性等6类情感词的LM英文金融情感词典。
为了更好地对中文金融文本数据进行分析,国内也有部分研究者尝试通过手工、自动或者翻译英文LM词典的方式来构建面向金融领域的中文情感词典[8-10]。但是笔者发现上述构建和翻译的中文金融情感词典在实际应用的过程中存在着诸多的问题:首先,这些情感词典中的情感词的覆盖面不够全面和广泛;其次,这些情感词典中的很多情感词的情感倾向并不准确。
针对当前构建和翻译的中文金融情感词典存在的缺陷,文章需要在此基础上构建一个可复用的可用性较高的面向金融领域的中文情感词典。通过对情感词典构建方法的综合比较分析,笔者首先构建面向金融领域的语料库和训练Word2Vec模型,然后在此基础上以半自动的方式构建面向金融领域的中文情感词典。
3.2 面向金融领域的语料库构建与Word2Vec模型训练
笔者从互联网上获取了70 000余篇搜狐财经新闻,并利用Jieba分词工具对财经新闻文本进行中文分词和去停用词。Word2Vec词向量模型包括CBOW模型和Skip-Gram模型两种。研究者们在应用实践中发现:相较于Skip-Gram模型,CBOW模型更加适用于处理小型语料数据[11]。文章构建的包含70 000余篇财经新闻的语料库属于小型语料库,因此文章选用CBOW模型来训练面向金融领域的Word2Vec词向量模型。参考国内外的有关研究,笔者将CBOW模型训练所涉及到的关键参数设置如下:窗口大小window设置为5,词向量的维度size设置为200。
词向量模型训练完成后,通过对比可以发现,相较于使用中文维基语料训练的面向通用领域的Word2Vec词向量模型,笔者利用财经新闻语料训练的面向金融领域的Word2Vec词向量模型在领域词汇的语义表示与语义理解上具有明显的优越性。例如,分别输出两个Word2Vec词向量模型中与“跳水”一词语义距离最近的10个词,笔者训练的面向金融领域的Word2Vec词向量模型的输出有“急跌”“下挫”“暴跌”“大幅下挫”“狂泻”“大幅下跌”等形容股票等下滑的速度迅速和幅度很大的词。而面向通用领域的Word2Vec词向量模型则输出的是“跳远”“跳高”“花样滑冰”“短跑”“铁人三项”“中长跑”“体操”等描述体育运动项目的词汇。
3.3 金融情感词典的半自动构建与文本提取
文章从以往研究者构建和翻译的中文金融情感词典中获取种子情感词,以面向金融领域的Word2Vec词向量模型为基础,利用外部知识库和统计方法来半自动地构建面向金融领域的中文情感词典。然后,利用构建的中文金融情感词典来对上市公司的临时公告和新闻报道数据进行提取。
3.3.1 获取面向金融领域的种子情感词
文章从文献[8]和文献[9]构建的情感词典以及文献[10]翻译的中文LM词典这3个中文金融情感词典中获取面向金融领域的种子情感词,获取种子情感词的方法如下:对于积极词汇和消极词汇这两类种子情感词,获取的规则是若一个词在两个中文金融情感词典相应类别中存在,则将其作为种子情感词;诉讼词汇类别的情感词则通过手工的方式在文献[10]翻译的中文LM词典中获取。最终文章获得积极类别的种子情感词143个,消极类别的种子情感词477个,诉讼类别的种子情感词275个,部分种子情感词如表1所示。
表1 面向金融领域的种子情感词(部分)
3.3.2 获取面向金融领域的种子情感词
利用余弦相似度来衡量种子情感词与候选情感词的语义相似度,将Word2Vec词向量模型中与种子情感词余弦相似度最高的20个词作为候选情感词。例如,输出Word2Vec词向量模型中与“暴跌”一词余弦相似度最高的10个词如表2所示。
可以很明显地发现,获得的候选情感词大部分都是与“暴跌”一词语义相同或者相近的消极情感词,如“大跌”“大幅下跌”“大幅下挫”“重挫”“跳水”等。但是候选情感词中与也有少部分情感词并不属于消极情感词,如“暴涨”和“大涨”这两情感词个词明显属于积极情感词。文献[4]在Word2Vec词向量模型的训练与使用中也发现,利用Word2Vec模型获得的候选词中大部分是目标词的同义词或者近义词,但仍存在有一些不相关的词,甚至是反义词。出现这个问题是因为这些不相关的词或者反义词与目标词在训练Word2Vec词向量模型的语料库中有着相似的上下文。因此,鉴于此,还需要对候选情感词进行进一步的过滤与筛选。
3.3.3 候选情感词的筛选与过滤
(1)基于规则的候选情感词的筛选与过滤。笔者首先借助于哈尔滨工业大学信息检索实验室构建的哈工大同义词词林扩展版这一外部知识库来对3类候选情感词进行初步的自动筛选与过滤:对于诉讼类别的候选情感词,直接将种子情感词的同义词和同类词从候选情感词中筛选出来;对于积极词汇和消极词汇这两类候选情感词,首先筛选出候选情感词中本类别种子情感词的同义词,然后过滤掉消极类候选情感词中积极类种子情感词的同义词,以及积极类候选情感词中消极类种子情感词的同义词。
笔者还从搜狗输入法官网中下载了刑事诉讼词库、民法常用词汇、审判词库、法律开庭笔录用语、法律文书法规法条、法律术语辞典、法律词汇大全等7个词库,并将7个词库中的词进行合并去重形成词表。笔者并未将该词表中的词直接作为诉讼类别的情感词的原因在于该词表中的一部分词明显不属于法律诉讼类别,因此笔者利用该词表和候选情感词来联合确定诉讼类别的部分情感词。具体的方法是:将诉讼类别的候选情感词和上述词表中共同存在的情感词筛选出来。
(2)基于统计的候选情感词的筛选与过滤。除了引入外部的同义词词典知识库来实现基于规则的候选情感词筛选和过滤以外,笔者还利用基于统计的方法来对积极词汇和消极词汇这两大类的候选情感词进行进一步的筛选和过滤。
文章以TURNEY等[12]提出的SO-PMI算法为基础,基于种子情感词、Word2Vec词向量模型和余弦相似度公式来判断候选情感词的情感极性,将候选情感词word的情感极性的计算公式确定为:
(1)
式中:Pset和Nset分别为本文获取的积极类种子情感词所构成的集合和消极类种子情感词所构成的集合;m和n分别为积极类种子情感词的数量和消极类种子情感词的数量;Similarity是指两个词语之间的语义相似度,笔者用词向量之间的余弦相似度来进行度量。当SO(word)>0时,表示候选情感词word属于积极词汇;当SO(word)=0时,表示候选情感词word不具有情感极性;当SO(word) <0时,表示候选情感词word属于消极词汇。
利用计算机对候选情感词进行自动化的筛选和过滤后,笔者还通过领域专家对计算机自动判别的结果进行审核和人工辅助判断,以形成学术研究和产业实践中可复用的高质量的中文金融情感词典;然后,将获取到的情感词与种子情感词进行合并和去重,形成最后的中文金融情感词典;最终,本文构建的中文金融情感词典中共包含积极类别的情感词共计1 206个,消极类别的情感词共计2 356个,诉讼类别的情感词共计1 156个。
3.3.4 上市公司的临时公告和新闻报道数据的提取
文章使用疫苗事件发生后长生生物披露的临时公告,以及相关的新闻报道数据来验证构建的基于句子语义挖掘的上市公司风险事件知识聚合模型。本文从巨潮资讯网上获取疫苗事件发生的前3天以及之后7天内长生生物披露的所有临时公告文件,从东方财富上爬取了疫苗事件发生的前3天以及之后7天内长生生物的相关新闻报道。最终,笔者获得长生生物的临时公告和新闻报道共计242篇。
笔者利用构建的中文金融情感词典来对上市公司临时公告和新闻报道数据进行提取,具体的方法和过程如下:首先,将消极类别的情感词和诉讼类别的情感词进行合并和去重,形成消极与诉讼类别情感词,共计3 022个;然后,基于如下的公式对上市公司的每一篇临时公告和新闻报道进行提取:
(2)
其中,sf(消极与诉讼)和sf(积极)分别为文本数据中消极与诉讼类别情感词的频次、积极类别情感词的频次。文章利用构建的中文金融情感词典对实验数据进行提取后,获得了长生生物的临时公告和新闻报道共219篇。
4 上市公司风险事件主题报告的生成
4.1 基于LDA模型与BERT模型的句子语义特征获取
对利用领域情感词典提取出来的长生生物的临时公告和新闻报道文本进行分句,并去除包含5个字及以下的句子,共得到4 237个句子;然后,将每个句子看作一个文档,将所有句子构成一个文本集合。利用LDA模型和BERT模型来对句子的语义特征进行挖掘,然后将两个模型分别获取到的语义特征进行融合,从而形成每个句子的语义特征表示。
4.1.1 基于LDA模型的句子语义特征获取
LDA(latent dirichlet allocation)模型是由BLEI等[13]提出的一种对文本数据的主题信息进行建模的概率主题模型,该模型包含文档层、主题层和词汇层等三层的清晰层次结构。LDA主题模型的主要思想是:文档由若干个潜在主题所构成,可以将文档表示为若干个潜在主题的概率分布;而这些潜在主题又由文本中的若干个特定的词汇所体现,可以将潜在主题表示为若干个词项的概率分布[14]。
主题数目是运用LDA主题模型实现文本分析所需要设定的重要参数,文章参考曾子明等[15]的研究,将LDA主题模型困惑度最小的时候所对应的主题数目作为文本集合的最优主题数。困惑度(perplexity)是评估LDA主题模型的重要标准之一,困惑度的值越小,则表明模型在文本集合上的拟合性越高,模型的泛化能力越强。困惑度的计算公式如下:
(3)
式中:D为文本集合;wd为文档d中的词语;Nd为文档d的词语数量;p(wd)为文档中的词wd产生的概率;M为文本集合中文档的数量。利用开源的自然语言处理工具包Gensim中的LDA模型来对4 237个句子所构成的文本集合进行主题挖掘,得到最小困惑度(最优主题数目为64)下的句子-主题分布,形成一个4 237×64的矩阵。
4.1.2 基于BERT模型的句子语义特征获取
BERT模型是由Google公司的DEVLIN等[16]提出的深度双向表示预训练模型,该模型融合了预训练语言模型ELMo模型和GPT模型的优点,采用基于Transformer的多层双向编码器在大规模无标注语料上进行文本特征抽取及训练,从而获得包含丰富语义信息的文本表征。BERT模型具有很强的文本特征表示能力,能够深层次地提取文本数据中的语义信息。
文章使用开源的工具Bert-as-service来加载预训练模型,将4 237个句子输入BERT模型中,将每个句子的深层次语义映射和表征到BERT模型输出的768维的稠密向量上,形成一个4 237×768的矩阵。
4.1.3 句子语义特征的融合
笔者将LDA模型和BERT模型获取的句子的语义特征进行融合,以更好地获得句子的语义特征表示。将LDA主题模型输出的4 237×64矩阵与BERT模型输出的4 237×768矩阵进行拼接,最终形成一个4 237×832的矩阵,如图2所示。该矩阵的每一行表示了每个句子832维的语义特征。
图2 句子的语义特征矩阵(部分)
4.2 基于凝聚层次聚类算法的句子聚类
根据获取的句子的语义特征,笔者利用凝聚层次聚类算法来对句子进行聚类,从而将句子划分到若干个类簇中,每个类簇中的句子集中描述了上市公司风险事件的一个主题。凝聚层次聚类算法首先将每个数据对象都当做单独的一类,然后逐步合并相似的类簇,直到达到预先设定的条件或者最终形成一个类簇为止。
凝聚层次聚类需要在类簇间距离计算的基础上实现类簇的合并,笔者基于Ward离差平方和法来计算类簇间的距离,该方法源于方差分析的思想,认为同一个类簇中样本有着较小的离差平方和,而不同类簇间则应该有着较大的离差平方和。Ward离差平方和的计算公式如下:
(4)
式中:μCi∪Cj为类簇Ci和类簇Cj合并后的中心点;Distance为距离函数,笔者选择的距离计算函数是欧氏距离。
文章将凝聚层次聚类算法的聚类数目设定为LDA主题模型困惑度最小的时候所对应的主题数目,即将4 237个句子聚类到64个类簇中。
4.3 上市公司风险事件文本主题报告的生成
完成句子的聚类后,需要选择各个类簇中一定数量的句子组成上市公司风险事件的主题报告。文章主要从情感特征和事件特征两个方面来衡量句子的重要度:考虑情感特征的原因在于,句子中出现的“暴跌”“恶化”“冻结”“查封”“立案”“罚款”“刑事责任”等消极与诉讼情感词对于上市公司风险事件的监测具有十分重要的作用;考虑事件特征的原因在于,需要降低文本数据中与当前的风险事件并不紧密相关的句子的权重,例如一些新闻报道中描述长生生物发展历程的句子。
综合考虑句子的情感特征和事件特征,将句子的重要度计算公式确定如下:
Weight(Sentence)=λ·Weight(Sentiment)+
(1-λ)·Weight(Event)
(5)
式中:λ为平衡参数,λ∈[0,1];Weight(Sentiment)为句子的情感特征值,计算方法为句子中消极与诉讼类别情感词的数目除以句子的长度;Weight(Event)为句子的事件特征值,计算方法为句子中事件特征词的数目除以句子的长度。临时公告和新闻报道的标题往往反映了风险事件的核心内容与关键动态,而标题中的名词和动词则是描述事件的重要语义单元[17],文章将各个类簇中的句子所对应的标题中的名词和动词作为事件特征词。
句子的重要度计算完成后,针对每个类簇选择一定数量的重要度较高的不重复句子,按照句子所对应的临时公告或新闻报道产生的时间顺序组成上市公司风险事件的文本主题报告。句子的数量通过压缩比来确定和控制,各个类簇形成的文本主题报告的句子数目为该类簇中的句子总数乘以压缩比并取整。笔者将平衡参数λ设置为0.6,将压缩比设置为10%,生成各个类簇下的文本主题报告。例如,针对包含了108个句子的第19个类簇,生成的事件主题报告如图3所示,可以发现该主题报告较为集中和有针对性地描述了长生生物被多家基金公司下调估值的情况。
图3 第19个类簇的文本主题报告
5 结论
(1)构建了基于句子语义挖掘的上市公司风险事件知识聚合模型,将包含了清晰、丰富语义语境信息且可读性和可理解性高的句子作为语义粒度来对上市公司风险事件相关的文本资源进行有效聚合,通过主题报告的形式为管理决策者提供智能化的知识服务。模型为上市公司风险事件智能监测提供了切实可行的解决路径,丰富了金融知识服务理论,拓展了金融事件的研究视角。
(2)从以往研究者构建和翻译的中文金融情感词典中获取种子情感词,以面向金融领域的Word2Vec词向量模型为基础,利用外部知识库和统计方法来半自动地构建了面向金融领域的中文情感词典,为金融文本分析、挖掘与利用提供了可复用的知识库资源。
(3)当前金融文本分析领域的研究尚处于起始阶段,而产品评论挖掘领域的情感词典资源较为成熟和丰富,有很多情感词典包含了情感词具体的权重。在今后的研究中,可以基于产品评论挖掘领域的情感词典,结合金融领域的具体情况来确定金融情感词典中情感词的权重。