APP下载

用户级情感预测主题模型的构建与研究

2018-03-19武庆圆冯佳纯罗茂权何凌南

计算机工程与应用 2018年6期
关键词:概率分布文档词汇

武庆圆,冯佳纯,罗茂权,何凌南

1.北京师范大学珠海分校管理学院,广东珠海519087

2.中山大学数据科学与计算机学院,广州510006

3.中山大学传播与设计学院,广州510006

用户级情感预测主题模型的构建与研究

武庆圆1,冯佳纯2,罗茂权2,何凌南3

1.北京师范大学珠海分校管理学院,广东珠海519087

2.中山大学数据科学与计算机学院,广州510006

3.中山大学传播与设计学院,广州510006

1 引言

随着Web 2.0技术的发展和移动通信设备的普及,互联网上产生了大量音频、图像[1]、用户对产品发表的评论[2],以及关于某些新闻事件表达的个人观点和情感偏向[3-4],例如阅读者对热点新闻文章发出的情感投票[5]。这些情感投票信息反映了大众对于该新闻事件的集体情绪反应,具有很大的参考价值[6-7]。由于新闻文章所属的类别广,同义词和多义词较多,因而采用传统基于情感词典的方法[8]具有一定的局限性。主题模型将文档的处理从词的层面转换为隐含语义——主题的层面,使其对文本的特征提取与人类对文字理解的方式更加近似。此外,主题模型能够将文档从“文档-词汇”的高维空间映射到“文档-主题、主题-词汇”的低维空间,这有效地提高了文本信息处理的能力[5]。例如,LDA[9]主题模型于2003年被提出,至今已经被广泛应用于文本挖掘领域。LDA模型假设一篇文档首先是由多个主题组成,然后根据每个主题下的多个重要词汇被组织生成,在这里主题是隐含变量,是不能够被直接观察得到的,而每篇文档以及文档下的词汇是显示变量,能够直接被观察到。通常来说,主题代表了文章的隐含语义,多个词语可以映射到同一个主题,一个词语也可以属于不同的主题,这就很好地解决了多词一义和一词多义的问题。主题模型在情感预测分类中的任务就是对训练文档集中的主题进行学习,然后根据用户对该文档的情感投票推测不同的情感类别在各个主题下的概率分布,根据学习推测的结果来预测测试文档集中各个文档的情感分布,并且进行预测。

然而,同一篇文档的读者情绪会与该用户的特征息息相关。近年来,用户特征在文本挖掘中的价值受到越来越多的关注。例如,在微博情感分类的相关研究中,加入用户的信用值就被证明对情感分类效果有显著的提升[10];考虑了用户特征随时间而变化的推荐模型在社交网络推荐好友的任务中比传统算法有更好的表现[11];而对于新闻类文本,有些文本主题的用户依赖程度比较低,如地震、洪水等类别,有些主题的用户依赖性很强,如足球比赛、电子竞技等类别,特征不同的用户情感反馈有很大差异,甚至完全相反。

基于以上分析,本文提出两种基于用户特征的情感预测模型,并通过真实新闻数据集进行实证分析。实验结果发现,通过将用户特征用于约束文本主题及情感标签的生成,能够更为全面精准地检测在线新闻文本引发的用户情感反馈。

2 研究现状

目前,情感预测方法主要分为两个层面:词层面和主题层面。在早期研究中,对于文本的情感挖掘方式主要在词的层面,文本的表示方式是使用空间向量模型,即文章的组织方式为“文档-词语”结构,其具有简单、易操作的优点[12]。但是,在词向量空间模型下,无法较好地解决一词多义或者多词一义的问题。为此,研究人员对于文档的组织方式有了新的认识,从一开始简单的“文档-词语”方式变为“文档-语义-词汇”的方式[5]。

近年来,基于主题模型的情感预测分类模型被相继提出,其中主要包括Emotion-Topic Model(ETM)[13-14]、Emotional LDA(ELDA)[15]、Multi-label Supervised Topic Model(MSTM)和Sentiment Latent Topic Model(SLTM)[12]等。ETM是一种对文档潜在语义主题和情感投票进行联合建模的模型。通过Gibbs抽样算法,ETM能够估计给定情感e,出现主题z的条件概率p(z|e)。ELDA模型首先通过LDA生成文档的潜在语义主题,然后采用极大似然估计等方法计算给定主题z,出现情感e的条件概率p(e|z),从另一个角度对主题与用户情感进行了关联。MSTM和SLTM模型同样能够估计给定主题z,出现情感e的条件概率p(e|z)。与ELDA的两个独立步骤不同,MSTM和SLTM是把每一个情感投票排成序列,通过一次传统的对主题、词的Gibbs采样后,再对主题、情感序列进行第二次Gibbs采样,生成与情感直接相关的潜在主题及事件,提高准确度。上述模型都能够达到较好的情感预测效果。然而,以上模型都没有考虑到用户自身特征对文档情感投票的影响。往往同一篇文档的读者情绪会跟用户特征有关,比如,同一场球赛的结果会引发比赛球队双方支持者的不同情绪反馈,不同用户对相同文本的情绪反馈会有所差异。因此,如何构建用户特征、文本以及情感分布的联合模型,受到越来越多的研究关注[16]。

3 用户级情感预测主题模型

在这一部分,详细描述两种基于用户特征的三层主题模型的具体结构,以及相关参数的估计方法。在本文研究中,用户特征是指能够用来描述并区分不同用户的各种属性,包括用户的昵称、年龄、性别、所属地区、IP地址、职业、社会收入等。对于不同类型的数据集,用户特征的范畴也有所区别。例如,新浪微博主要收集昵称、注册地域和性别等用户特征;新闻门户网站则主要记录用户的IP地址。

3.1 用户级多标签有监督主题模型

用户级多标签有监督主题模型(User-level Multilabel Supervised Topic Model,UMSTM)是一个结合了用户特征、文本词汇、情感投票的联合模型。其中,文本词汇为组成每篇文档的词语,是一种表达文本主题的重要特征;情感投票为用户在阅读某篇文本之后根据自身情感反馈进行的投票,其反映了个人对文本蕴含信息的情绪或观点。

对于UMSTM,训练文档的主题分布首先由词汇决定,根据Gibbs采样得到的文档-主题概率分布。采样得到的文档-主题、主题-词汇分布,作为约束条件参与文档的主题-情感概率分布的生成,以及主题-用户特征概率分布的生成。根据训练文档学习得到的这三个概率分布,在预测测试文档的时候,首先对测试文档的词汇以及用户特征进行采样,得到属于该测试文档的文档-主题、主题-词汇、主题-用户特征概率分布,最后基于训练文档的主题-情感概率分布预测该测试文档的情感概率分布。

3.2 UMSTM的模型结构

在UMSTM模型下,一篇文档的生成过程如下:首先,根据超参数β、γ和η的蒂利克雷分布采样得到每个主题的词汇概率分布φz、情感概率分布δz和用户特征概率分布ψz,即φz~Dir(β)、δz~Dir(γ),以及ψz~Dir(η);其次,根据主题的词汇概率分布抽取当前文档的单词。具体步骤为:第一、根据超参数α的蒂利克雷分布采样得到文档d的主题分布θd。第二、根据θd抽取主题zdn,作为当前单词的主题。第三、根据zdn的词汇概率分布φz采样单词wdn;再次,根据主题的情感概率分布抽取情感投票实例。具体步骤为:第一、根据θd抽取主题zdm,作为当前情感投票的主题。第二、根据zdm的情感概率分布δz采样情感投票实例edm;最后,根据主题的用户特征概率分布抽取用户特征类别。具体步骤为:第一、根据θd抽取主题zdi,作为当前用户特征的主题。第二、根据zdi的用户特征概率分布ψz采样用户特征udi。UMSTM的模型结构如图1所示。

图1 UMSTM模型结构

从以上模型结构可以看出,先验分布θd首先被用来生成文档的词汇,其次是用户情感类别,最后是用户特征。这表明,不同的用户因为自身不同的用户信息会针对不同的主题反馈不一样的情感。通过上述方式将主题-情感-用户特征三种不同的信息结合在一起,借助用户特征以进一步提高最后预测的效果。

3.3 基于用户特征的情感隐主题模型

基于用户特征的情感隐主题模型(User-based Sentiment Latent Topic Model,USLTM)是本文提出的另一种方法。在USLTM模型中,训练文档的先验“文档-主题”分布是通过对文档情感投票反馈使用Gibbs采样方法得到的。采样得到的“文档-主题”、“主题-情感类别”概率分布,作为约束条件参与文档的“主题-词汇”概率分布,以及“主题-用户特征”概率分布的生成。

3.4 USLTM的模型结构

USLTM模型的具体过程如下:首先,根据超参数γ、β和η的蒂利克雷分布采样得到每个主题的情感概率分布δz、词汇概率分布φz和用户特征概率分布ψz,即δz~Dir(γ)、φz~Dir(β),以及ψz~Dir(η);其次,根据主题的情感概率分布抽取情感投票实例。具体步骤为:第一、根据超参数α的蒂利克雷分布采样得到文档d的主题分布θd。第二、根据θd抽取主题zdm,作为当前情感投票的主题。第三、根据zdm的情感概率分布δz采样情感投票实例edm;再次,根据主题的词汇概率分布抽取当前文档的单词。具体步骤为:第一、根据θd抽取主题zdn,作为当前单词的主题。第二、根据zdn的词汇概率分布φz采样单词wdn;最后,根据主题的用户特征概率分布抽取用户特征类别。具体步骤为:第一、根据θd抽取主题zdi,作为当前用户特征的主题。第二、根据zdi的用户特征概率分布ψz采样用户特征udi。USLTM的模型结构如图2所示。

图2 USLTM模型结构

从以上模型结构可以看出,根据先验分布θd首先确定该文档的情感类别概率分布,其次是这篇文档的具体词汇,最后是用户特征。这表明,主题首先是根据情感类别的概率分布来确定的,进而根据确定的主题来确定相关词汇以及聚集了相关的用户特征。对于以上两种模型,均采用Gibbs采样进行参数估计并预测无标签文本的情感。

3.5 采样与预测

为了预测一篇无标签(测试)文档的情感倾向,需要获得主题相对于文档的概率分布、词汇相对于主题的概率分布、情感标签相对于主题的概率分布,以及用户特征相对于主题的概率分布。其中,词汇、情感标签、用户特征均为显示变量,能够直接观察得到其分布,但是主题是隐性变量,不能被直接观察得到,因此通过Gibbs采样方法,对显示变量依次采样,达到逐步收敛逼近原始的条件概率分布的效果。具体如下:

(1)对词汇-主题条件概率分布的采样。对于每个单词,先随机分配到某一主题下,然后根据Gibbs采样公式不断对每一个单词重新计算其属于每个主题的概率,并将单词更新到采样概率最大的主题下,这一步将一直迭代直到最后整个词汇库的主题分配趋于平稳。上述词汇-主题的Gibbs采样公式借助已有的变分推导而成。其形式可概括为:对于给定其余参数条件下,一个单词属于某一特定主题的概率正比于当前文档属于该主题的单词频数,乘以该主题下当前单词频数与所有单词频数的占比。以上为模型第一层参数的求解过程。

(2)对情感标签-主题条件概率分布以及用户特征-主题条件概率分布的采样,其采样迭代步骤与上述步骤相同,但是基于变分推导,以及本文提出模型的性质,Gibbs采样公式的形式与意义有了变化。在给定其他参数下,一个情感标签或用户特征属于某一特定主题的概率正比于情感标签或用户特征所属文档出现该主题的概率,乘以该主题下当前情感标签或用户特征频数与所有频数的占比。

(3)对测试文档的情感预测。其预测方法的形式可以表达为,一篇测试文档属于某一情感标签的条件概率等于该篇文档的所有主题属于这一情感标签的条件概率总和。对所有情感标签使用该预测公式,最后再归一化,即可得到该篇测试文档的情感标签概率分布。

4 实验

本章详细展示实验设置,进而分析主题个数对文档情感预测的影响。

4.1 数据集

本文实验选取大粤网(http://gd.qq.com/)新闻数据集,内含222篇长篇新闻报道,其发布时间的跨度为2013年9月9日至2014年1月24日。此外,该数据集详细收集了用户的情感投票信息以及投票用户的地区特征。其中,情感种类由大粤网设置,分别为愤怒、鄙视、厌恶、恐惧、悲伤、惊讶、高兴和平静。本数据集搜集了网民阅读的222篇长篇新闻报道之后,在大粤网设置的上述8种情感类别上的投票次数。考虑到新闻的篇数较少,将222篇数据集训练得到模型参数用于预测相同文本的情感投票拟合度。由于新闻网站对用户隐私的保护程度较高,大粤网主要记录了进行情感投票的用户的IP地址,因此本次实验选取的用户特征为用户IP地址的地域特征,用该地区的电话区号表示。在数据集的预处理和清洗方面,采用哈尔滨工业大学社会计算与信息检索研究中心研制的Language Technology Platform(LTP)开源语言技术平台[17]进行分词。

4.2 对比算法

在本次实验中,由于本文主要研究的是用户特征对情感预测准确率的提高效果。因此,对比算法选择的是SLTM模型和MSTM模型[11],旨在对比突出用户特征对情感预测的影响与效果。

4.3 衡量指标

4.3.1 最高情感命中率

当完成测试文档的情感类别概率的预测之后,将预测概率最高的情感类别作为本篇文档的情感类别。给定命中范围t(t∈{1,2,…,E}),对于测试文档,将其真实情感概率分布按照从高到低的顺序排序,取前t个情感类别,如果预测的最高概率情感类别在这t个情感类别内,则正确个数加1。最高情感命中率的数值越高,则预测效果越好。

4.3.2 相关系数

根据预测公式得到测试文档的情感类别概率分布之后,求预测概率分布与其真实情感概率分布的相关系数。相关系数数值越高,则预测效果越好。具体包括两种方式:第一种方法是在情感类别εe下,对所有文档的预测概率和真实概率之间求相关系数,最后取平均值,得到平均情感类别预测相关系数。第二种方法是对测试文档预测的情感类别概率分布和其真实情感概率分布之间求相关系数,最后取平均,这种方法测量的是对文档的情感类别概率分布预测的准确度。

4.4 结果分析

4.4.1 最高情感命中率随主题数变化分析

图3~图6分别展示在命中范围t为1~4的情况下,最高情感命中率随主题数目的变化。对于MSTM模型,命中率随主题数变化波动不大,因此MSTM模型的稳定性很高。基于MSTM模型,UMSTM的命中率变化范围也很小,波动不大,但是有所提高。相较于MSTM,当命中范围为1时,UMSTM的命中率比MSTM的平均高出1.10%。当命中范围为2时,UMSTM的命中率比MSTM的平均高出1.60%。

图3 命中范围t=1

图4 命中范围t=2

图5 命中范围t=3

图6 命中范围t=4

对于SLTM模型,由于其命中率随主题数的变化波动较大,因此USLTM的命中率同样是不稳定的。当命中范围t=1时,总体效果是SLTM模型更好,最高情感命中率平均比USLTM高0.86%。但是当命中范围t=2的时候,USLTM模型平均最高情感命中率更高,比SLTM平均高出3.72%。可见,加入用户特征之后,USLTM模型能够将预测结果提升到前列范围。

4.4.2 相关系数随主题数变化分析

不同模型的相关系数结果如图7、图8所示。在Corrε的衡量指标下,SLTM和USLTM模型的表现要优于MSTM和UMSTM模型,而在Corrdoc的衡量指标下,MSTM和UMSTM模型的表现更佳。这是由模型的性质决定的。在MSTM和UMSTM模型下,因为“文档-主题”概率分布θd是通过对文档的具体词汇进行采样而确定,所以在一篇文档范围内的预测效果会更好。

图7 情感层面的Corrε指标相关系数值

图8 文档层面的Corrdoc指标相关系数值

对于MSTM模型而言,加入了用户特征信息以后,UMSTM相对于MSTM在Corrε指标下最高可提高6.51%。在Corrdoc的衡量指标下提高的效果较稳定,最高提高了3.61%。而由于SLTM模型本身波动较大,加入用户信息以后,USLTM的相关系数波动范围依然很大。在Corrdoc的衡量指标下,提升效果最高达13.81%。在Corrε的衡量指标下,当主题数K≥10时,USLTM模型的相关系数数值要高于SLTM模型,最高提高了8.42%。

4.4.3 用户特征对最高情感命中率影响分析

图9与图10为最高情感命中率(即t=1)的指标下,原始的SLTM模型与本文提出的USLTM模型在“恐惧”和“惊讶”两种情感类别上的预测效果对比。结果发现,随着主题数的变化,基于用户特征的USLTM模型的最高命中率相对于原始的SLTM模型而言都要更高。

图11和图12为原始的MSTM与本文提出的UMSTM在情感标签为“高兴”、“平静”时最高情感命中率的对比。原始的MSTM模型在“高兴”这个情感类别下的表现不佳,最高也仅为5%,但是加入用户特征的UMSTM模型的最高情感命中率均比MSTM模型要高,最高可达20.46%。而在情感标签为“平静”时,UMSTM模型的最高情感命中率也高于MSTM模型,最大可从0.00%提高到8.70%。

图9 用户特征对“恐惧”类的影响

图10 用户特征对“惊讶”类的影响

图11 用户特征对“高兴”类的影响

图12 用户特征对“平静”类的影响

上述四种模型在其余情感类别上的对比情况类似,由此可见加入用户特征能够提高模型对各个情感类别的识别精准度。

5 结束语

为了研究如何基于用户的特征信息来提高情感预测的准确率,本文提出USLTM和UMSTM模型,这两个模型通过加入用户特征的Gibbs采样层来精准预测文本引发的用户情感反馈。实验显示,加入用户特征信息之后的模型相较于基准模型有更高的情感预测能力,并且稳定性很高。未来将会继续探索,充分展现出用户特征信息对情感的挖掘与预测的价值。具体而言,通过收集新浪微博用户的昵称、注册地域和性别等多维用户特征,并基于转发微博中的表情符号获取用户的情感投票信息,能够对不同类型的用户特征在情感检测中的影响进行更为细致的分析。

[1] 宋灵超,黄崑.基于社会标签的图像情感分类标注研究[J].图书情报工作,2016,60(21):103-112.

[2] 徐凯.基于产品特征的用户评论情感倾向分析研究[D].合肥:合肥工业大学,2015.

[3] 陈龙,管子玉,何金红,等.情感分类研究进展[J].计算机研究与发展,2017,54(6):1150-1170.

[4] 刘玉文,郭强,吴宣够,等.基于TSSCM模型的新闻舆情演化识别[J].情报杂志,2017,36(2):115-121.

[5] Hu Y,Boyd-Graber J,Satinoff B,et al.Interactive topic modeling[J].Machine Learning,2014,95:423-469.

[6] 饶洋辉,李青,刘文印,等.公众文本之情感词典研究进展[J].中国科学:信息科学,2014,44(7):825-835.

[7] 杨玉珍.基于Web评论信息的倾向性分析关键技术研究[D].济南:山东师范大学,2014.

[8] 黄熠,王娟.PSO-GP中文文本情感分类方法研究[J].计算机科学,2017,44(6A):446-450.

[9] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[10] 叶尔兰·何扎提,李鹏.结合微博网络特征和用户信用的微博情感分析[J].计算机应用与软件,2016,33(10):98-102.

[11] 孙红涛.融合用户文本语义和情感分析的好友推荐研究[D].重庆:重庆邮电大学,2016.

[12] Rao Y,Li Q,Mao X,et al.Sentiment topic models for social emotion mining[J].Information Sciences,2014,266:90-100.

[13] Bao S,Xu S,Zhang L,et al.Mining social emotions from affective text[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(9):1658-1670.

[14] Bao S,Xu S,Zhang L,et al.Joint emotion-topic modeling for social affective text mining[C]//The Ninth IEEE International Conference on Data Mining(ICDM 2009),Miami,Florida,USA,6-9 December,2009:699-704.

[15] Rao Y,Lei J,Liu W,et al.Building emotional dictionaryforsentimentanalysisofonlinenews[J].World Wide Web,2014,17:723-742.

[16] Guerra P C,Cardie C.Sentiment analysis on evolving social streams:How self-report imbalances can help[C]//Seventh ACM International Conference on Web Search and Data Mining(WSDM 2014),New York,NY,USA,24-28 February,2014:443-452.

[17] 李正华,车万翔,刘挺.基于XML的语言技术平台[C]//第五届全国青年计算语言学研讨会(YWCL),武汉,中国,2010.

WU Qingyuan,FENG Jiachun,LUO Maoquan,et al.Development of user-level topic models for emotion prediction.Computer Engineering andApplications,2018,54(6):123-127.

WU Qingyuan1,FENG Jiachun2,LUO Maoquan2,HE Lingnan3

1.School of Management,Zhuhai Campus of Beijing Normal University,Zhuhai,Guangdong 519087,China
2.School of Data and Computer Science,Sun Yat-sen University,Guangzhou 510006,China
3.School of Communication and Design,Sun Yat-sen University,Guangzhou 510006,China

The emotion triggered by document topics is associated with user features.To improve the accuracy of emotion prediction by exploiting user features,a layer is added to sample user information for existing two-level topic models MSTM and SLTM.For the respectively proposed three-level topic models UMSTM and USLTM,user features,document topics,and emotions are modeled jointly.To validate the effectiveness of UMSTM and USLTM,experiments over the proposed models and baselines are conducted using metrics of accuracy and correlation coefficient.The experimental results show that UMSTM outperforms MSTM in terms of accuracy and correlation coefficient.Furthermore,USLTM achieves better performance than SLTM in both evaluation metrics.

topic model;user feature;graphic model;emotion prediction;model development

文本主题引发的情感反馈与用户特征之间具有一定的关联。为了充分挖掘用户特征的价值以提高情感预测的准确度,在双层主题模型MSTM和SLTM的基础上,增加了对用户特征信息的采样层,进而提出了基于用户特征的“用户-主题-情感”三层主题模型UMSTM和USLTM。通过三层模型与基础模型在最高情感命中率以及情感概率预测相关系数的对比实验,来检验用户特征对情感预测产生的效果与影响。实验验证了UMSTM和USLTM在以上两种指标中,相对于MSTM和SLTM均有提高。

主题模型;用户特征;概率图模型;情感预测;模型构建

2017-10-19

2017-11-22

1002-8331(2018)06-0123-05

A

G202

10.3778/j.issn.1002-8331.1710-0173

广东省软科学研究计划项目(No.2014A030304013)。

武庆圆(1985—),女,博士,讲师,研究领域为信息分析,科学评价,E-mail:wuqingyuan@bnuz.edu.cn;冯佳纯(1995—),通讯作者,女,研究领域为主题建模;罗茂权(1989—),男,硕士,研究领域为情感分析;何凌南(1981—),男,博士,讲师,研究领域为网络谣言、网民画像、网络社会心态。

猜你喜欢

概率分布文档词汇
有人一声不吭向你扔了个文档
本刊可直接用缩写的常用词汇
离散型概率分布的ORB图像特征点误匹配剔除算法
一些常用词汇可直接用缩写
本刊可直接用缩写的常用词汇
关于概率分布函数定义的辨析
基于概率分布的PPP项目风险承担支出测算
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
一种相依极小P值统计量概率分布的近似计算方法