基于LDA-BiLSTM 的金融恐慌舆情分析与预测

2023-10-31张思扬匡芳君

软件导刊 2023年10期

张思扬，匡芳君

（温州商学院信息工程学院，浙江温州 325035）

0 引言

金融恐慌是中国近代学界金融危机现象的表现，指几乎所有金融领域的金融状况发生突发性恶化，将导致并恶化金融危机。经济资源和金融风险配置问题均可能导致金融恐慌，但风险配置更容易导致，另外政策变化也可能触发金融恐慌。2018 年国家智库报告指出，中国应警惕金融恐慌。为此，政府对此高度重视，提前采取了一系列风险管理措施。

预期管理是一种防范金融恐慌的工具，但作用有限，几乎未涉及有关金融恐慌网络舆情分析的研究，而舆情导向对引发金融恐慌有着不可忽视的作用。因此，研究金融恐慌舆情，设计并实现金融恐慌网络舆情分析与预警系统，不仅能为金融市场决策者提供技术支撑，还为政府相关部门、银行和金融市场管理者制定网络舆情引导策略提供科学依据。

1 相关工作

国内外学者对网络舆情概念、内涵和发展的研究较多，存在很多舆情理论和应用研究。王丙坤等［1-2］提出一系列舆情预警模型，为网络舆情预警机制提供解决问题的思路。刘英杰等［3-6］研究政府决策及信息发布对舆情调控的影响和网络舆情情感识别研究，为政府决策提供参考。Wang 等［7］提出话题检测算法，通过网络舆情要素的多层次、多属性、多维度等特征构建多维网络模型。Fang 等［8］研究网络舆情意见差异阈值的影响提出GPF-NP 模型。Yu 等［9］在大数据背景下研究网络舆情分析，为海量舆情分析和预警研究提供有益的思路。林萍等［10］利用LDA 主题挖掘模型，挖掘网络突发事件热门主题与演化趋势。吴彦文等［11］融合主题词和LDA 进行文本分类。孙靖超等［12］研究循环神经网络舆情预测方法。陈福集等［13］利用人工蜂群算法优化BP 模型参数，提升网络舆情热度趋势预测准确率。邢云菲等［14］提出基于信息熵的负面网络舆情监测指标体系。连芷萱等［15］结合定性、定量指标体系，构建微博舆情热度预测模型。邓楠等［16］结合情感词向量和BiLSTM 进行文本情感分析。周灵等［17］提出融合情感特征的短文本分类方法。周泳东等［18］利用分段卷积神经网络进行文本情感分析。Li 等［19］在双向LSTM 中融合自我关注和多特征通道进行情感分析。

虽然，国内外网络舆情研究已取得一定成果，但金融恐慌舆情隐蔽性强、爆发速度快、网络用语不规范，舆情研究成果仍然无法完全适用，金融恐慌舆情信息的预测方法仍需完善和改进。

因此，本文提出一种基于LDA-BiLSTM 模型的金融恐慌舆情监测方法，以金融行业新闻网页、论坛、微博、博客等为数据来源，挖掘数据中的热点话题和网民对热点话题的情感极性，筛选舆情数据中的有效信息，为政府相关部门和金融恐慌舆情管理者提供舆情提醒。

2 金融恐慌网络舆情演化

金融恐慌作为金融市场预期突变的产物，对社会稳定和实体经济发展带来了危害和挑战。金融恐慌信息的不当传播会造成巨大影响，可能相较于金融危机危害性更严重。因此，深入研究金融恐慌舆情信息传播机理，构建金融恐慌网络舆情分析与预警系统迫在眉睫。

本文以金融恐慌舆情信息为主线，分析在线金融交易用户对金融恐慌网络舆情信息的情感倾向性，充分利用大数据技术建立在线金融市场的金融恐慌舆情信息传播中利益相关者的博弈仿真模型，制定金融恐慌信息舆情引导机制，利用仿真模型推演金融恐慌舆情的前兆和演化过程，提升金融市场和政府部门对金融恐慌舆情的预警与快速响应能力，为领导提供及时、客观、准确的舆情信息，从体制、机制创新角度提供相应的金融恐慌网络舆情策略与决策参考，从而积极化解金融恐慌网络舆情危机。金融恐慌网络舆情演化要素关系如图1所示。

Fig.1 Relationship of evolution factors of financial panic network public opinion图1 金融恐慌网络舆情演化要素关系

3 金融恐慌舆情分析流程与方法

3.1 舆情分析流程

金融恐慌舆情分析主要包括数据采集和预处理、模型构建、预测舆情趋势等步骤。首先，针对金融行业新闻网页、论坛、微博、博客等目标页面编写爬虫程序，将采集的网页相关数存储在Mongo 数据库，并对存储文本进行预处理；然后，对预处理后的数据建立主题提取和情感分析模型；最后，根据舆情信息分析挖掘出可能的舆情数据，提醒相关金融部门和市场管理者。金融恐慌舆情分析流程如图2所示。

Fig.2 Analysis process of financial panic public opinion图2 金融恐慌舆情分析流程

3.2 数据采集与预处理

金融恐慌舆情数据涉及领域广，本文主要针对股市、汇市、债市、房地产等与金融行业紧密相关新闻网站、论坛、微博、博客、第三方支付等具有评论功能的网页数据和信息进行采集和数据预处理。首先利用Scrapy 框架编写网络爬虫程序，采集涵盖图像、视频、音频和文本等金融恐慌舆情数据；然后，将采集的数据存入Mongo 数据库，通过数据清洗、合并、变换和标准化等预处理技术进行整理，删除无效网页数据和重复数据；最后，利用云数据存储服务平台Hadoop 和Mongodb 数据库技术，结合网络信息采集与预处理技术，收集网络中各类金融恐慌舆情热点的精品语料并存入系统知识库，为金融恐慌网络舆情预警与风险管制研究提供高质量的数据基础。

3.3 大数据平台下词性过滤的LDA主题模型

潜在狄利克雷分布（Latent Dirichlet Allocation，LDA）是一种文档主题生成模型［20］，只根据单词在主题中出现的概率判断相关性，然而模型提取主题的可读性受词性影响，可能存在较大差异。因此，本文提出结合隐马尔可夫模型（Hidden Markov Model，HMM）和字典匹配法的基于词性过滤的LDA 主题模型自动标注单词词性，过滤解释能力较差的词性，从而提升LDA 主题模型的可读性。其中，字典匹配法基于前缀字典扫描词图，构造涵盖所有可能分词结果的有向无环图，然后利用动态规划寻找最大概率路径，并在前缀词典中寻找该词词性，最后利用HMM 处理未知词的分词并标注词性。

本文利用Spark 大数据平台和MapReduce 编程模型，结合基于词性过滤的LDA 话题模型处理发现的舆情热点和敏感话题，重点寻找新信息、关注特殊热点，以提取语料库的热点主题和关键词。通过聚类向用户汇总信息，自动跟踪新闻事件，提供事件发展轨迹，实现多范围、多角度、多层次的数据分析与挖掘等，包括网络恐慌舆情识别、网民个人行为和情绪分析等，分析网民特点和行为，跟踪舆情热点趋势。

3.4 基于LSTM 的情感分析模型

1997 年，长短期记忆网络（Long Short-Term Memory，LSTM）被提出，它是循环神经网络的一种特殊类型，近年来被学者们广泛应用与改良，适用于处理、预测时间序列数据和事件［21-22］。

LSTM 的隐含层输出ht与ht-1间存在非线性关系，可解决循环神经网络难以训练的问题；在记忆细胞ct和过去的ct-1间引入线性依赖性，通过引入控制门和记忆单元可解决梯度减小或爆炸问题。LSTM 中每个神经元均具有存储记忆单元、输入门、输出门和遗忘门。其中，输入门、输出门分别应用于输入端的非线性函数和输出端的非线性函数［11，12］；每个控制门均对前一个神经元的存储单元赋予权重。LSTM 网络模型公式如式（1）—式（6）所示。

式中：ct、it、ft、ot分别表示记忆细胞、输入门、输出门和遗忘门；σ(·)为sigmoid 函数，主要用于激活门；g(·)为tanh函数，主要用于激活block 输入和输出；W为权值系数；b为偏置值。

LSTM 模型不仅可弥补LDA 模型在短文本数据稀疏性方面存在的不足，还在记忆上下文信息和学习文本特征方面的效果良好，能较好地处理多个短文本语料库、分析热门主题情感极性，但在处理更细粒度的分类任务时，单向LSTM 无法从后向前地编码信息。

为此，本文结合前向、后向LSTM，构建双向长短期记忆（Bi-Directional Long Short-Term Memory，Bi-LSTM）模型［23］，以更好地挖掘双向语义依赖。Bi-LSTM 提取文本特征向量公式如式（7）所示，Bi-LSTM 模型结构如图3所示。

Fig.3 Bi-LSTM model structure图3 Bi-LSTM 模型结构

4 实验结果与分析

4.1 数据采集与预处理

金融恐慌网络舆情通过媒体报道、微博、博客、股吧等平台影响投资者情绪和行为，导致金融市场波动，进而引发金融恐慌。本文利用Scrapy 框架爬取2022 年2 月1 日—2 月28 日有关金融行业的股市、汇市、债市、房地产等与金融行业紧密相关的新闻网站、论坛、微博、博客、第三方支付等具有评论功能的网页数据，共获取了舆情信息数据684 810条，如图4所示。

Fig.4 Trend of financial public opinion information图4 金融行业舆情信息趋势

本文将爬取的舆情数据存入MongoDB 数据库，再对存储的舆情数据进行预处理。具体步骤为：①根据内容和昵称对舆情数据进行去重；②利用机械压缩方式压缩文本数据；③结合词和词性标注方式进行分词；④以哈尔滨工业大学停用词为基础构建词典，删除舆情数据中的停用词。

为了更好地了解网民对经济方面的情绪反应，利用Python 编程分析网民情感，如图5 所示。由此可见，网民的正面情绪为46.88%，负面情绪为53.12%，其中，能保持正常较好情绪的语言占34.56%，乐观情绪占12.32%，恐惧情绪占25.75%，厌恶情绪占20.85%，愤怒情绪占2.08%，悲哀和惊恐情绪占比均为2.22%。

Fig.5 Score of netizen sentiment analysis图5 网民情感分析得分

人们普遍抱有负面情绪的原因主要在于：①新冠疫情期间大众心理状态相对脆弱，网络传言与猜测不断，个别网站报道时携带了个人色彩，引发了网民的负面情绪；②中东国家局势紧张，原油、黄金、军工股大涨及美股三大指数大跌，中美贸易摩擦减缓，制造业数据的收缩将严重拖累经济发展；③美联储的行动影响全球多数央行决策，从而造成全球货币政策发生舆情；④新闻媒体、相关网站、论坛、微博、博客等不断渲染宣传民生经济状况，使人们感受到生活、经济的紧张气氛，衍生出恐慌、悲观、厌恶等负面情绪。

4.2 基于LDA的参数估计与主题提取

本文首先通过预处理数据，筛选数据集的数据词性；然后去除非名词词性，将数据集导入LDA 主题模型；最后在LDA 模型中使用gensim 软件包提供的方法训练语料库，获得每个主题的关键词。由于LDA 模型参数较多，需要自行设定，其中主题数（Topic）最重要。因此，本文利用困惑度（Perplexity）计算模型的主题数，困惑度越低聚类效果越好，即最小困惑度对应最优主题数。困惑度计算如式（8）所示：

本文将主题个数设置为［5，200），步长为5，循环递增主题个数，根据式（8）计算不同主题数下LDA模型的困惑度并记录相应主题数，在文本语料库确定主题数后设置其他参数。首先，为了筛选不受欢迎的主题，将主题概率分布的最小阈值设置为0.01；然后，从语料库中自动学习先验知识以设置超参数α、β，并将迭代次数设置为5 000次。经过50轮训练后，模型最终选取相关性较高的前20 个主题，文档的预测主题则由LDA模型获取每篇文档相关性概率最高的主题来确定，然后选取8 个热点主题下的文档集作为测试语料库，对每个热点话题进行后续的情感倾向分析。

4.3 基于Bi-LSTM 的网民情感倾向分析

在模型训练数据方面，本文在开源中文情感标注语料库中选取正面、负面语料，按4∶1 的比例划分训练集和测试集，利用语料库训练词向量，将其用于训练语料库中的字符映射。LSTM 隐藏层设置为128，学习速率设置为0.01，区域固定长度设为30，通过调整其他参数进行50 轮训练，训练结果如表1所示。

Table 1 Public opinion training results of LDA-BiLSTM表1 LDA-BiLSTM 模型舆情训练结果

然后，利用训练后的模型预测测试集，LDA-BiLSTM与LSTM、BiLSTM 模型舆情预测结果比较结果如表2 所示。由表1、表2 可知，LDA-BiLSTM 模型的正面情绪（Positive）和负面情绪（Negative）的准确率（Precision）、召回率（Recall）、F1 因子（F1-score）均在92%以上，宏平均（macro avg）和加权平均（weighted avg）均在91% 以上，证明了LDA-BiLSTM 模型能准确预测金融恐慌舆情倾向，相较于直接使用LSTM 和BiLSTM 进行训练和测试的效果更优。