基于混合深度学习方法的房地产网络舆情分析
2023-05-09李帅文刘继
李帅文 刘继
关键词:房地产;网络舆情;情感指数;最大互信息
中图分类号:TP183 文献标识码:A
1 引言(Introduction)
随着互联网的发展,大量的文本评论信息走进研究者的视野,成为反映房地产关注者情感表达的重要方式。现有的研究将文本评论的情感极性(积极或消极)作为反映市场状态的指标,而本文通过研究发现,文本评论所蕴含的情绪得分不能直接用于衡量百度指数的变化,此外文本评论信息属于非结构化的数据,具备非线性、非平稳性的特征[1],所以以往的量化投資方法应用于房地产价格研究并不适用。
近年来,越来越多的研究者尝试使用深度学习解决基于时序数据的房地产波动问题。但是,每天会产生很多的房地产评论信息,利用深度学习只能得到单个文本的情感极性,因此单一使用深度学习得到文本情感用于衡量百度地产指数走势是有一定缺陷的。
针对上述问题,本文提出在深度学习模型的基础上构建情感指数,通过情感指数将深度学习得到的文本情感进行每日量化,从而估计其对于百度地产指数的影响。
2 相关研究工作(Related research work)
现有的对房地产市场舆情的研究可以分为两类:一类是基于数值分析;另一类是基于传统数学方法从多角度解读影响房地产价格波动的因素。
为了能直接利用数值、数据,尽可能地了解数据背后的规则,张爱琳等[2]收集包头市2015—2019年的年平均房价数据,用其构建预测房地产价格波动的GM(1,1)模型,从而预测包头市房地产未来3年的价格变化趋势。刘洋等[3]发现应用几何布朗运动模型研究房地产价格变化有一定的优势。几何布朗运动模型仅单一考虑房地产价格数值信息,未考虑影响房地产价格变化的直接因素和间接因素。柳冬等[4]在进行房地产价格预测时,首先对影响房地产价格的因素进行分析,然后选取房地产行业的热点问题,利用多种方法分析我国房地产市场价格的变化趋势。赵怡爽[5]通过多元因子分析,从12个影响指标中挑选出重要性排名前两位的影响指标,运用层次分析方法将上述指标进行加权赋值,得到最终综合分数,进而预测未来房地产价格变动。邵为爽等[6]利用数据挖掘理论,将属性约简算法使用到房地产价格影响因素提取上,从而将降维后的数据放入网络训练并预测房地产价格走势。这些方法都是基于影响房地产价格的因素,利用经济模型对房地产价格进行预测。多元因子分析和层次分析方法皆在基础模型上加入了其他影响因素。
随着对影响因素的研究逐渐深入,研究者发现文本情感信息对房地产价格的预测有非常重要的影响。因此,融合文本信息的房地产价格预测模型应运而生。
何平等[7]通过构建投资者情绪指数,提取股民文本评论情绪用于研究股民的情感变化是否会影响股票市场价格波动。姜富伟等[8]通过专属情感词典计算媒体文本情绪指数,发现媒体文本情绪指数具有代表性作用,可以作为预测股票价格变动的参考依据。由上述研究可知,文本情绪表达会间接干预经济变化。由于传统情感分析方法在文本情感分类任务中耗时多且效率较低,缪亚林等[9]利用CNN和双向GRU(门控循环单元)提取文本内在特征信息,然后通过单层GRU降维,使用激活函数进行情感分类。BEHERA等[10]提出将循环神经网络(LSTM)与CNN结合,发现CNN-BiLSTM混合模型兼具LSTM和CNN的优点,可以使文本分类任务预测效果更好。上述研究验证了深度学习在文本情感计算中的优越性,随后研究人员提出深度学习文本情感分类和金融预测联合模型。例如,JIN等[11]提出了一种基于LSTM的股票市场预测模型,该模型考虑了投资者的情绪倾向。
这些现有的基于房地产的研究和利用文本信息预测股票走势及提供股票投资建议,让我们有了基于深度学习提取文本情感,将其运用于地产行业的想法。
3 投资者情感指数与地产走势相关性分析模型(Correlation analysis model of investorsentiment index and real estate trend)
为了高效提取特征,提高预测精度,本文将CNN和B i L STM网络融入一个统一的框架之中,提出了一个名为CNN-BiLSTM的情感分析模型。该模型可以充分利用文本信息,自动学习和提取其内存特征。CNN-BiLSTM网络结构模型如图1所示。
在此模型中,首先通过Word2Vec(词向量)模型训练好词向量,其次使用CNN提取输入文本的局部特征,再次利用双向循环网络提取上下文总体文本特征,在通过Softmax分类得到情感极性后,利用自定义情绪指数计算每天的情感得分,最后将其与地产百度指数做相关性分析。
3.1 卷积神经网络(CNN)
CNN模型主要是由卷积层和池化层构成,卷积之前需要利用文本输入层提取文本特征,最后通过全连接层得到文本分类结果。在文本分类任务中,将文本训练得到的词向量传递给输入层,然后通过卷积层提取词语内部特征。卷积核的选取可以根据研究者的需求进行设置,然后通过池化进行运算,对文本特征做进一步处理,提取主要特征信息,将获得的信息全部传输到全连接层,通过激活函数得到文本分类结果[12]。
设输入词向量为X,卷积神经网络使用卷积核提取文本信息,从而更好地获得字词之间的语义内涵,其运算过程如下:
式(1)中, ?表示卷积运算,W和b表示权重和偏置,f (·)表示激活函数。把提取到的信息放入池化层,通过运算得到主要信息,运算过程如下:
最后将结果进行全连接运算。
4 实证分析(Empirical analysis)
4.1 实验过程
房地产的价格走势是一个二分类问题,市场参与主体如果持积极客观的态度,看好市场未来发展,那么就可以判定房地产价格走势极大概率会上升;反之则判定为下降。
本文实验主要由三个部分构成,过程示意图如图3所示。
步骤一,分别爬取百度指数和房地产评论数据,对百度指数和房地产评论数据进行预处理,得到百度指数和房地产评论数据库。
步骤二,对评论数据进行人工标注后,利用混合CNNBiLSTM建立评论情感分类模型。
步骤三,将预测部分评论数据输入“步骤二”得到评论情感分值,利用自定义情绪指数计算每日最终情感得分,分析其与百度指数的相关性。
4.2 实验数据与预处理
本实验文本数据是相关房地产交易网页中2020年1月初至2021年11月末有关新疆房地产评论文本数据,首先经过人工筛选剔除文本噪声,其次对文本进行标签标注,可以获得11 961条有效数据用来对模型进行训练和测试。在本实验中,研究人员将2020年1月初至2021年5月末共计9 468条数据用来训练模型,将2021年6月初至2021年11月末共计2 492条数据用来做预测分析。由于正负样本不均衡,因此在此处采用下采样方法做特殊出口。在构建词向量阶段,由于缺乏新疆地域性房地产词典,所以对文本进行分词处理时,将搜狗网房地产11个词库做合并处理,构建基础分词词典,在词基础上利用结巴分词,将人工筛选出的108条词汇和根据TF-IDF(词频-逆文档频率)提取到的前2 000条词汇添加到分词词典,从而完成新疆地区房地产词典的构建。
4.3 实验参数设置
本实验中,Keras(人工神经网络库)被用作神经网络的框架,并使用Python编程语言实现网络结构。实验实现过程需要环境配置,实验性能也需要预定义相关超参数,环境配置与具体参数分别如表1和表2所示,其中Null表示该参数不需要设置。
4.4 实验评价指标
为了直观、定量地分析所提模型和情感指数性能,本实验中采用准确率(Acc)、精准率(P)、召回率(R)和F1四类评价指标测度分类模型。下面给出了4类指标对应的计算公式,其中Acc衡量了模型分类准确性,R代表召回率,P代表精准率,F是精确率和召回率的调和平均数,当参数α =1时F就是F1测度。
上式中:TP表示预测的正向文本语料实际为正例;FP表示预测的正向文本语料实际为负例;TN表示预测的负向文本语料实际为负例;FN表示预测的负向文本语料实际为正例。
4.5 情感分类器实验结果
为了验证CNN-BiLSTM模型在文本情感分类的有效性,本文选择五个对比模型(SVM、LSTM、TextCNN、BiLSTM、BiLSTM+Attention)与本文所提模型进行测试效果對比,其对比结果如表3所示。
从表3中可以看出,基于CNN-BiLSTM模型对房地产文本分类的准确率为93.38%,基于BiLSTM和BiLSTM+Attention模型的分类性能次之,基于SVM模型的分类效果最差。因此,本文选择CNN-BiLSTM模型计算地产评论情感极性。
4.6 相关性分析
在CNN-BiLSTM模型得到情感极性后,通过本文设计的情感指数求得地产评论每日的情感得分(score)。首先为了验证本文提出指标是符合实际的,则需要找出能够代表新疆乌鲁木齐房地产市场发展以及市场态度的指标测试指数。百度指数是由搜索百度引擎提出的,是基于互联网大数据统计搜索量的一个指标。搜索量的数目可以体现投资者对市场的关注度,从而反映市场情绪变化。因此,选取百度指数作为检验指标,接着将计算出的情感得分和百度地产指数通过MIC分析相关性,得到MIC结果是23.08%,相关性较弱,绘制出的折线图如图4所示。
从图4可以看出,情绪指数和百度指数走势大致相同,但是MIC的结果和预想目标不太一致。通过移动平均值对数据做平滑处理,消除一部分噪声。在对情绪指数和百度指数分别做30日的日均线,将情绪指数滞后5天,重新计算最大信息系数和绘制折线图,绘制的折线图如图5所示。
计算得到MIC系数为67.84%,表现出较强相关性,从图5中也可以看出情绪指数和百度指数趋势基本一致,说明研究人员利用深度学习模型分析情感指数与百度指数具有较好的性能。根据市场情绪走势,2021年7月,新疆乌鲁木齐市投资者情绪高涨,楼市话题度较热,其中2021年9月市场情绪指数和百度指数出现反常情况,这与市场大环境低迷等情况有关。2021年,住房和城乡建设部提出把发展保障性租赁住房作为“十四五”住房建设重点任务,并且提出“三孩”配套支持政策落地:实施差异化租赁和购买房屋优惠政策,城市价值不断凸显导致情绪高涨,然而近年受某些因素的影响,几乎所有行业受到冲击,导致市场投资者情绪趋于悲观趋势,反映出投资者对房地产市场的担忧。现阶段国家和房地产企业拿出各种促销活动,吸引投资者眼球,使投资者对房地产关注度有所上升。
5 结论(Conclusion)
本文在构建情绪指数的基础上,引入深度学习提取文本情感极性分析房地产价格走势,采用新疆乌鲁木齐市房地产行业文本语料和百度地产指数对模型进行验证,结果表明,通过CNN-BiLSTM模型提取的文本极性,通过构建量化情感指数计算得到某一日情感得分,将其与百度指数拟合,最大互信息值为67.84%,相关程度非常高,并且对市场效应进行分析,通过移动平滑可以让二者走势基本吻合。此模型既可以保证文本情感和房地产价格有较强的相关性,又可以保障二者走势的可视化趋于一致,市场决策者可以根据此模型研究结论,通过实时测度房地产评论舆情走势,为数字经济下市场决策者提供智力支持。
作者简介:
李帅文(1997-),男,硕士生.研究领域:数据智能分析,文本挖掘.
刘 继(1974-),男,博士,教授.研究领域:数据智能分析,文本挖掘.