基于互联网文本情感分析的消费情感指数构建

2018-08-15朱述政喻燕君

统计与信息论坛 2018年8期

刘苗，李蔚，朱述政，喻燕君，刘扬，纪宏

(1．中央财经大学统计与数学学院，北京 100081;2．首都经济贸易大学统计学院，北京 100081)

一、引言

20世纪30年代，凯恩斯建立消费函数理论，奠定了消费者行为研究的理论基础，此后，消费者预期在消费总量等宏观经济指标中的先行性被大量理论和实证研究证明。消费者信心指数(Consumer Confidence Index，简称 CCI)作为反映消费信心强弱的指标，综合反映并量化消费者对当前经济形势、就业状况、物价水平、生活状况、购房和投资等方面的看法和预期，是消费者预期的重要度量方法。20世纪40年代，美国密歇根大学首先提出消费者信心指数的概念，创立了密歇根消费者信心指数(MCSI)，成为分析和预测美国宏观经济的重要先行指标。随后，欧美和亚洲的一些发达国家相继编制了本国的消费者信心指数，如英国、法国、日本等。1997年，中国国家统计局景气监测中心开始编制中国消费者信心指数，该指数以计算机辅助电话访问的方式进行调查，按月公布指数，每季度发布一次《中国消费者信心监测报告》。2009年，中央财经大学、首都经济贸易大学、香港城市大学、澳门科技大学以及台北辅仁大学5所高校联合发起并编制两岸暨港澳消费者信心指数①即原“两岸四地消费者信心指数”。2017年第4季度起修订了指数名称。(China Consumer Confidence Index，简称CCCI)，CCCI主要采用电话调查、网络调查等方法展开。截止目前，CCCI累计发布30余次，受到了社会和媒体广泛关注。随着各机构消费者信心指数的持续发布，消费者信心指数的作用和影响力不断增强，成为国家宏观经济决策和相关行业规范制定的重要依据。

在两岸暨港澳消费者信心指数调查研究的过程中，研究团队发现一些问题。如:电话调查的样本在年龄等分布上呈现明显的左偏趋势(中老年受访者较多)，网络调查对象的回答质量很难控制等。因此，研究团队一方面加强了在调查方案设计、调查方案实施中的质量控制，另一方面尝试大数据挖掘方法对问题进行新的诠释。本文从网络文本数据角度出发，尝试找到网络文本中反映的消费者态度和信心，并首次提出消费者情感指数概念，用以综合衡量网络文本中消费者的信心状况。用该情感指数作为消费者信心指数的有力支撑，期望从多维度、多视角更全面地刻画消费者信心。为了保证研究的连贯性和可比性，消费情感指数的构建延续消费者信心指数构建的6个维度。从经济发展、就业状况、物价水平、生活状况、购房和投资6方面出发，收集自2011年至2017年每季度6个相关主题的互联网新闻文本，训练文本模型，标定新闻文本情感标签，并用积极、中性或消极情感标签数合成该季度消费情感指数，将所得结果与传统方式计算的消费者信心指数进行比较，探索消费情感指数与消费者信心指数之间的关系。

二、文献综述

(一)传统消费者信心指数研究

密歇根大学调查与研究中心首先提出了消费者信心指数概念。1978年以后，密歇根大学消费者信心指数改为月度调查并按月发布，采用电话调查的方式，每月对超过500名成年人进行访问，收集有关消费者信心、当前个人财务状况、国家经济状况以及预期个人财务状况、国家经济状况的看法，通过对肯定及否定答案计数，用所得数据计算消费者信心指数。信心指数取值范围在0到200之间，0表示消费者最没有信心，100表示中立，200表示最有信心。0～100和100～200两个区间分别表示消费者信心的消极和积极状态。分值越高表示消费者对当前及未来市场越乐观。消费占美国国内生产总值的三分之二，因此，消费信心指数研究对美国经济有重要影响。除了作为反映市场预期的先行指标，密歇根大学消费者信心指数能通过与市场预期的比较影响美元，进而影响市场。消费者信心指数的研究也随之推广开来，一些国家如英国、加拿大、日本等开始编制本国的消费者信心指数。

国家统计局景气监测中心于1997年12月开始研究编制中国的消费者信心指数。该指数编制参考了国际上消费者信心指数的编制方式，主要分为现状指数和预期指数两个部分。但在具体编制方式以及预期时间的选择上有所不同。在调查方式上采用问卷调查的方式，具体由派员面访、邮寄访问及电话访问构成。由于面访难度和成本增加，这种访问方式在收集数据的效率和数据的质量上都难以保证，因此由计算机辅助电话访问(CATI)的问卷调查方式逐步被推广，成为获取数据的主要途径。

两岸暨港澳消费者信心指数在编制方法上，重点参考了密歇根大学和国家统计局的指数编制方法。团队成员结合内地及港澳台情况对两岸暨港澳消费者信心指数进行了分析，调查中采用电话调查与网络问卷调查相结合的方式［1］。调查内容涵盖消费者对经济形势、就业状况、物价水平、生活状况、购房和投资6个方面的现状满意程度及未来3个月预期情况，每个分指数分为现状指数与预期指数，6项分指数均由现状指数和预期指数加权构成，共同反映并合成总指数。调查方式为计算机辅助电话访问(CATI)和网络调查，每季度发布一次。

表1 消费者信心指数研究对照表

传统的消费者信心指数构建主要依赖于问卷调查的形式，调查内容涵盖反映消费者消费信心的6个方面。调查对象涵盖不同年龄、不同职业、不同收入的人群，调查结果有重要参考意义，但调查方式仍存在一定局限。例如，电话调查和网络调查的拒访率逐年增高，调查人群有偏等。这都给信心指数的编制带来了一定的困难。近年来，随着互联网技术蓬勃发展，网络媒体普及，人们利用新媒体获取信息、发表观点的意愿不断增强，网络新闻成为消费者观点和市场趋势的风向标，起到了一定的引导作用，因此，本文希望利用网络新闻文本构造消费情感指数，综合反映媒体和舆论对市场以及消费者消费信心的影响。

(二)基于互联网大数据的消费者信心指数研究

相较于传统消费者信心指数数据收集方法，互联网搜算数据获取更加快捷，数据量可观，可以保证数据获取效率及数据质量。Nicola等采用Google搜索的热度变化来构造美国消费者信心指数，该研究认为搜索量反映需求变化，而需求变化反映消费者的购买力，从而能替代消费者信心指数［2］。同时，本文发现该指数与密歇根大学消费者信心指数高度相关，且趋势领先了3个季度。Dees等用数据验证了美国和欧洲一些国家利用消费者信心指数来预测消费支出的合理性［3］。Gurgur等在 2016年通过Google趋势提供的网络搜索数据构造了土耳其消费者信心指数，构造的基于谷歌的指数(GBI)与官方发布的消费者信心指数高度相关，且在短期和长期趋势上均对消费者信心指数有预期作用［4］;Rawley等在密歇根消费者信心指数研究的基础上，通过“Recession”等词的谷歌搜索量变化来代替传统问卷调查的方式，认为相关词的搜索量代表了消费者对市场信心的反应以及对未来经济的预期［5］。结果显示这些词的搜索量与失业率、股指等指数高度相关。孙毅等通过网络搜索数据对消费者信心指数进行构建，并发现基于互联网搜索行为的消费者信心指数领先经济景气指数6个月［6］。刘伟江等利用谷歌网络搜索数据，采用时差相关分析法确定与消费者信心有关的网络搜索关键词的相关系数和领先阶数，并合成了消费者预期搜索指数和消费者满意搜索指数，研究表明，网络搜索数据与消费者信心指数之间具有显著相关关系［7］。本文参考了该研究中搜索关键词设计。

袁铭利用购物网站用户搜索量数据对CPI进行了分析和预测。在合理选择关键词以及对数据进行季节调整和假日处理的基础上建立全国与城镇CPI的及时预测模型［8］。实证研究表明，搜索变量与CPI具有显著的因果关系。本文用文本挖掘方法从互联网文本本身的情感倾向出发，以文本的情感分析为计算基础，构建消费情感指数。

以上研究结果一致说明，基于互联网搜索数据的消费者信心指数预测，具备消费者行为理论的基础，此外基于搜索研究的方法可提高预测的效率，满足更高的时效性要求。本文基于互联网新闻文本本身的情感分析，能够从互联网新闻文本直接或间接获得消费者的主观感受，再通过文本情感分析将文本数据转化为情感指标，对消费者信心指数进行预测。文本情感分析亦称为意见挖掘，属于自然语言处理的一个分支，是指对包含用户的观点、喜好、情感等的主观性文本进行分析、处理、归纳和推理的过程。在商品和网络新闻监控、信息预测等领域有巨大的应用价值。

利用文本情感分析构建消费情感指数，目前主要采用基于机器学习的研究方法，其准确度受到文本表示、降维方法、文本分类方法等多方面的制约。Deerwester等提出了潜语义分析的方法，在文本降维及文本表示上提升了文本分类的效果［9］。Lee等提出了非负矩阵分解方法，在文本和图像分类领域取得了较大的进展［10］。本文也利用了该方法进行文本的处理。Pang等最早使用朴素贝叶斯和支持向量机等机器学习模型对电影评论文本进行情感识别［11］。Kimitaka等提出一种集支持向量机、最大信息熵和score的多分类器分类方法，将3种方法单独使用的输出结果作为支持向量机新的特征变量进行分类，结果要优于其他的方法［12］。梁军和何炎祥等人基于多层神经网络架构分析微博文本的情感倾向，利用递归神经网络和卷积神经网络等得到较高的分类和预测精度［13－14］。通过上述多项情感分类算法的比较研究，发现采用支持向量机和深度神经网络等算法对文本的情感极性分类表现很好。

以上研究对本研究的开展起到了重要的启示作用。在数据收集方面，本文首先获得大量网页新闻文本，保证了搜索数据的公正性、客观性、高效性;在指数测算方面，同时考虑互联网搜索量数据及互联网新闻文本数据，数据类型不但有定性数据，还有数值变量辅助;在情感分析方面，本文首次采用情感分析法构建指数，并结合以往研究中表现较好的机器学习算法进行对比研究，并利用深度学习算法进行深入挖掘。本文在充分吸收前人研究成果的同时，在消费情感指数的构建方面进行了大胆的探索。

三、消费情感指数建立

消费者信心指数主要体现消费者对于经济发展、就业状况、物价水平、生活状况、购房和投资6方面的信心情况。本文保留传统消费者信心指数构建的6个维度，搜集反映6个维度情感情况的互联网新闻文本，利用文本情感分析方法对文本的情感倾向进行判断，构建基于深度学习框架的深度神经网络模型，得到互联网新闻文本的情感标签，进而得到6个分指数并合成总指数，然后用该指数作为以网民为代表的消费者信心的衡量值。

(一)互联网新闻文本源数据的获取

互联网新闻文本数量巨大，首先要筛选能够反映消费者信心6个维度的新闻文本。在项目开展的几年中，项目组尝试抓取了不同网页结构的文本。2015年，团队抓取国内权威媒体机构、权威学者的相关主题，例如新华网、人民日报等，但是发现这些文本中体现的消费倾向(用词谨慎，态度很难用计算机有效评估)和消费观点差异(中性、积极偏多，消极较少)并不明显。尤其是像经济发展分指数，得到的结果往往并不能很好地反映消费者个体间的态度差异。此外这种类型的文本获取渠道，需要对6个主题的权威媒体发布、6个主题方面的专家进行分别统计，然后再逐一进行数据抓取方案的设计和实施。给研究的初期工作带来很大的麻烦。2016年，抓取了知名论坛贴吧中的文本数据，从文本情感分析的角度来看，计算机可以更加准确地估计和预测文本的态度倾向，而且从论坛和贴吧的数据来看，消极态度的文本类型更多，可以更加全面地反映消费者的主观感受。但是这种方法更加适合特定的分指数，如投资分指数，在经济发展分指数上很难套用这种分析模式。最后，通过梳理相关文献，结合专家经验和搜索量等信息确定最终的搜索关键词。然后利用搜索引擎确定互联网文本来源，通过Python编写爬虫程序，按照设定好的网页规则，自动从网络上获取文本信息。

本文中数据获取分为搜索引擎确定、关键词选取和文本爬取3个部分，具体过程如下:通过比较中国大陆地区各家搜索引擎的市场占比，本文选用占据市场份额79．58%①数据来源于《中国搜索引擎市场季度监测分析2017年第1季度》。的百度作为研究中的搜索引擎。同时设立关键词选取标准如下:

(1)关键词搜索得到的文本内容与情感指数高度相关。

(2)所得文本有较清晰的情感区分度。

(3)搜索结果中的无关内容如广告和娱乐新闻，占比应该在合理范围内。

基于上述标准，经过多次尝试选取消费情感6个方面关键词见表2。

表2 关键词表

在关键词选择步骤，结合消费研究和专家经验，初步拟定6个分指数的关键词表之后，我们在百度上进行测试，发现很多关键词对应的网页搜索结果为商业广告，如“购房”和“房地产”等词，搜索结果多为楼盘或者房地产中介的租房或卖方链接。因此删补了部分词表，这里不一一列出。关键词表确定后，按照搜索量对相关新闻进行排序，即可获得文本数据②本文通过Python中的Beautiful Soup4模块和re模块进行数据抓取。抓取过程中根据时间限定不同设置不同URL，且要设置cookie记录和相邻两次抓取的间隔时间，以模拟人的访问，便于提高数据抓取效率。。当今社会网民阅读习惯日渐趋于快餐式，新闻标题的关注度和舆论导向性远高于新闻文本内容本身，出现了“标题党”等现象，因此，本研究在抓取过程中突出了对新闻标题的分析。另一方面，在后续技术分析中，新闻标题③在前期的测试研究中发现，在分指数的情感标签预测中，使用新闻全文和使用标题得到的结果差异非常小。出于其对吸引力和明确性的高要求，往往比正文内容有更明确的情感倾向，可以增加研究中情感分类的准确性，有利于指数构建。本研究中2011年至2017年情感指数6方面数据信息见表3。

(二)互联网新闻文本预处理

由于抓取到的源数据是掺杂着标点、特殊符号、及对文本含义无意义的语助词和语气词的完整中文语句，不能直接被计算机理解，在做分析前需进行文本预处理。文本预处理主要分为分词、删除停用词和文本向量化处理。

文本分词目前常用算法主要分三类:一是基于词典匹配的方法，如正向最大匹配法、逆向最大匹配法等。这些方法通过文本与词典一一匹配来识别词语;二是基于统计的分词算法，常用算法有隐马尔可夫(HMM)模型，即基于动态规划去寻找最大概率的分词路径;三是基于理解的分词方法，该方法要用到句法分析、语义分析的技术，试图通过让机器理解语言含义来进行分词，实现更为复杂。本研究中采用基于统计的分词方法④通过Python中jieba分词包处理。，通过隐马尔可夫(HMM)模型的Viterbi算法得到分词结果。

删除停用词指过滤文本中的特殊字符和对文本含义无意义的词语。例如“的”、“啊”一类的语气语助词，这些词对文本情感倾向判定无意义，却在文本向量表示时由于占据较大比重而对后续分析造成干扰，降低情感分类的准确性。另一方面，抓取的新闻标题除标题主体内容外，还附带发布网站的名称，如“新浪财经”等，这同样会对标题内容分析造成干扰，需要通过停词表筛除。同时，根据分词文本主题不同，停词表需要进行针对性地修改来提高准确性。

因此，研究中用到的停词表在《哈工大停用词表》的基础上，根据6个不同方面文本的具体需求进行修改。文本分词去除了常见的停用词。本研究中文本向量化采用one-hot-representation，用稀疏方式储存词－文档矩阵。矩阵维度为t×n，t代表文本个数，n代表词语个数。用词－文档稀疏矩阵直接进行分类是不可取的，由于维度过高及矩阵过于稀疏将导致分类精度低，因此向量需先降维。矩阵降维采用非负矩阵分解(NMF)的方法，分解后应用于分类算法的文档向量也非负，因此可以用非负矩阵分解(NMF)方法降维。经过NMF分解，文档矩阵作为原始词－文档向量的替代应用到分类算法。

(三)互联网文本情感分类

经过降维处理后文本向量可用于后续分类处理。要计算每季度的消费情感指数，我们需要将每季度6个方面的文本内容先分类，给每条文本打上积极、中性或者消极的标签，再分别统计标签数进行指数计算。前面的比较研究中，发现支持向量机、随机森林和深度神经网络的算法在情感标注过程中表现较好。因此本文中分类采用机器学习和深度学习的方法，机器学习方面采用建立随机森林等模型，深度学习方面采用神经网络模型，学习已标记文本①每个主题下人工标记5 000条文本作为训练学习样本，之后均采用自适应学习得到情感标签。，得到模型后，再对未标记文本做预测，获取最终标签。标签方法为，“1”表示积极，“－1”表示消极，“0”表示中性。另外，本研究抓取的文本按季度排列，为防止时间对文本样本的影响，保证标记样本有良好的代表性，在选取样本文本时，采用系统抽样的方法，保证每个季度都有文本入样。模型建立过程中，共采用以下两大类方法:

第一大类选用机器学习中精度较高的分类算法。本文采用支持向量机(SVM)、随机森林(Random Forest)和AdaBoost XGBoost算法②计算通过Python机器学习库sklearn包中函数实现。，分别训练6个方面数据，通过交叉验证得到平均准确度。支持向量机(SVM)算法平均准确度为0．846，随机森林(n=50)算法平均准确度为0．872，随机森林算法准确度较高。

第二类模型基于深度学习框架，构建多层神经网络预测情感标签③深度学习网络基于keras库搭建。。将文本的词向量(word2vec结果)作为总输入，情感的3类标签作为输出，因为目标任务为文本的多分类任务，激活函数方面主要选用 tanh、Sigmoid、Relu、SoftMax 函数进行激活，在搭建多层网络过程中，主要基于卷积神经网络(Convolutional Neural Network，CNN) 加 Max-Pooling，并结合递归神经网络RNN(Recurrent Neural Network，RNN)＆(Long Short-Term Memory)LSTM进行测试。训练数据得到预测准确性高达95%。卷积层用了3层，并分别使用maxpooling进行降参，在卷积层使用的主要激活函数为 relu、tanh，Dropout为 0．2，最后利用了全连接形式，激活函数选择了softmax。损失函数为 adam、Epoch=16、Batch_size为 128。

(四)消费情感指数计算

消费情感指数由“经济发展”、“就业状况”、“物价水平”、“生活状况”、“购房”和“投资”6项分指数合成。总指数取100为中值，分别加上6方面得分记为该季度消费情感指数。每方面得分计算方式如下:以“购房”2017年第1季度为例，该类别下文本总数为1 512条，其中被标记为“1”的文本共477条，标记为“－1”的文本共136条，其余文本标记为“0”，因此“购房”方面在 2017年第 1季度的得分为:

即计算所有有正向、负向情感倾向文本的得分均值。这种计算方法忽略了被标记为0的大多数文本，有效排除广告等无意义文本在情感指数计算中的影响。对于重复性文本，本研究中没有剔除，因为重复性文本在一定程度上表明该观点传播范围广、大众接受度高、有代表性。

四、实证分析

(一)消费情感指数分析

消费者信心指数可分为经济发展指数、就业指数、物价指数、生活指数、购房指数和投资指数6个分指数。本文基于网络新闻文本，通过对6个维度新闻标题的正负情感倾向判断，得到互联网新闻文本的情感标签，进而得到6个分指数。基于上述计算方法，每个分指数得分将在－1到1之间波动，把每个季度6方面得分算术相加，再加上100分的基础分，得到每季度消费情感分数。按照上述方法，基于随机森林算法和神经网络模型分别计算出2011年至2017年第1季度的消费情感指数。计算结果显示，两种方法计算得到的消费情感指数趋势相似，且基于神经网络的消费情感指数略高，2013年至2017年第1季度指数在98至102间徘徊，在2016年第3季度起稳定在100以上，表示当时消费者对当前及未来经济发展的乐观心态。图1以折线图的形式展示消费情感指数。

图1 基于互联网新闻文本的消费情感指数图

图1中显示的是由多层神经网络和随机森林训练得到的基于互联网新闻文本的消费情感指数。从图中可以看出，两条曲线变化趋势基本一致，指数取值区间为94至106，调查时间为2011年第1季度至2017年第1季度。分段来看，2011年至2012年第2季度，情感指数整体处于下降区间，反映民众对经济发展向好信心不足。自2012年第3季度起，指数强势反弹，在经历2013年初的小幅震动后，回升趋势继续延续，指数波动上升至2015年第2季度，达到5年来最高值，体现消费者对经济发展抱有积极乐观的心态。2015年第2季度，伴随股市断崖式下跌，多地房价超越历史最高水平，经济下行压力凸显，消费者信心大幅下滑，指数再次进入下降通道。2016年随着中国大陆经济平稳运行，情感指数回暖上行，总体稳定在较高水平。

(二)与传统消费者信心指数比较

本文选用国家统计局景气监测中心的消费者信心指数(CCI)以及两岸暨港澳消费者信心指数大陆消费者信心指数(CCCI)作为情感指数比较的指标。计算情感指数与传统消费者信心指数间相关系数见表4。

表4 情感指数与信心指数的相关系数表

从结果来看，基于多层神经网络的情感指数与国家统计局信心指数相关性为0．653，与大陆消费者信心指数相关性为0．590，基于随机森林算法的情感指数与国家统计局信心指数有较高相关性，为0．671，这说明情感指数具有一定的可靠性，且基于多层神经网络训练得到的结果更稳定，更接近传统信心指数的走势。通过折线图观察更为直观，如下图。

图2 情感指数与统计局消费者信心指数比较图

图3 情感指数与大陆消费者信心指数比较图

图2为两类情感指数与国家统计局景气中心消费者信心指数比较图。由于计算方式不同，情感指数数值波动较小，为了更直观地展现趋势变化，将情感指数绘制在次坐标轴，景气中心指数绘制在主坐标轴。从图形来看，指数整体趋势相近，基于随机森林的情感指数在2011—2013年间趋势贴合度更高，基于多层神经网络的情感指数在2015—2017年趋势更接近。从细节来看，两类情感指数都在2012年第2季度及2013年第2季度提前景气中心信心指数一个季度企稳并进入上升通道，体现情感指数的局部先行性。

图3表示两类情感指数与两岸暨港澳消费者信心指数中大陆地区消费者信心指数比较图。根据图3可以看出，伴随2014—2015年房地产及股市投资市场的火热，大陆地区消费者信心指数迎来大幅跃升，随后保持在高位运行，体现消费者对经济发展乐观积极的心态。与之相比，情感指数整体波动较平缓，其中基于多层神经网络得到的情感指数变化趋势更接近大陆地区消费者信心指数。

在相关性方面，消费情感指数与传统指数编制方法在团队近几年的测试中均表现出较强的关系，在不同文本类型的测试中(特定门户网站文本和论坛贴吧文本)，这种相关系数都达到约0．7，结果比较一致。

在先行性方面，此次计算的消费情感指数与传统指数编制方法并未表现出明显的先行性。在这里给出研究前期基于论坛和贴吧文本情感分析的结果，如图4所示，其中实线给出的是消费情感指数，虚线是国家统计局的CCI指数，这个结果中的指数先行性有更明显的体现，领先趋势在1～2个月。总体来看，相较传统指数编制方法来说，基于文本情感分析方法得到的结果先行性优势并不明显。

通过图形分析可得，情感指数存在局部先导性，尤其在趋势转换的节点，情感指数往往在领先传统消费者信心指数1个季度后企稳，提前进入上升趋势。这种趋势先行在一定程度上反映了媒体对公众的导向作用，网络媒体由于其受众面广，在集结民众声音和反映消费者情绪的同时逆向影响消费者对趋势的判断，两者间相互作用解释了情感指数与传统消费者信心指数的趋势相近性及趋势先行性。

图4 基于论坛贴吧数据的消费情感指数与消费者信心指数比较图

五、结论及不足

本文通过文本情感分析和深度学习的方法，运用互联网新闻文本构建了消费情感指数。该指数参考了两岸暨港澳消费者信心指数(CCCI)的编制方式，由6个分指数构成，每季度测算1次。与传统方式得到的指数相比，情感指数数据获取更灵活，计算更便捷，且利用了互联网信息集中和时效性强的特点，减少传统消费者信心指数调查工作量，可节约人力、物力成本。由于互联网新闻的高度总结性及广泛传播性，指数短期趋势变化更明显，能灵敏捕捉消费者信心的变化。研究结果表明，基于互联网文本情感分析得到的情感指数与传统消费者信心指数高度相关，说明了该指数计算方法的可靠性，在反映消费者对经济发展现状及未来预期的看法时，体现了网络媒体及舆论对消费者情绪的影响，不失成为消费者信心指数测算方法的良好补充。

本研究存在一些局限性。数据获取自2011年开始，整体尚不足一个经济周期，一定程度上使得指数说服力不足。同时随着互联网技术的发展，人们的上网习惯和互联网使用人群的分布变革迅速，互联网用语日新月异，针对时间维度的变化尚未出现更好的分析，这可能对数据稳定性造成一定影响。因此，情感指数在发挥其可靠性和先导性等优势的同时，也需要进一步改进，后期可从适当增加搜索引擎、关键词数量、探索互联网文本用语习惯变化等维度继续提高结果准确性。