基于情感分析的社交网络意见领袖的识别:以情感分类为手段
2017-11-24蒋澜,林娜娜,刘阳,史雪琪,陆诗慧
蒋澜,林娜娜,刘阳,史雪琪,陆诗慧
摘要:在社交网络中进行意见领袖的挖掘对信息传播与演化的深度分析、舆情监控和引导具有重要意义。结合情感分析,挖掘在专业知识领域受到大众支持的正面意见领袖是本项目研究重点。实验对比发现,Leader-PageRank算法能够结合社交网络的用户交互,更有效客观地识别在专业领域中的正面意见领袖。
关键词:社交网络;意见领袖;情感分析
中图分类号:G640 文献标志码:A 文章编号:1674-9324(2017)47-0043-02
近年来,随着微博、微信等社交媒体的兴起,社交网络的规模与影响力不断地扩大,产生了一批具有社会舆论号召力的大V,这些能够引导社会舆论趋势,传播公共信息,推荐商业产品的网络节点被称为意见领袖。而情感分析能够判别社交网络用户间的情感倾向,作为意见领袖的一种挖掘方法,具有一定的科学依据。本文将结合情感分析,探讨在专业领域中具有正面影响力的意见领袖。
一、基于情感分析的意见领袖识别
基于情感分析的意见领袖的识别方法研究框架分5步:(1)数据收集;(2)文本预处理;(3)主题帖与评论特征提取;(4)主题帖分类与情感计算;(5)构建关注情感综合矩阵;(6)利用Leader-PageRank算法,计算意见领袖值。
二、主题帖分类
本文研究的社交网络主体是垂直类社交网络汽车论坛,关注汽车知识类主题帖,如汽车信息、汽车维修等。我们采用LDA主题模型对主题帖名进行分类,它能扩展短文本的特征项,在一定程度上解决短文本的特征稀疏问题。LDA模型的基本思路是:挑选主题帖的有效内容作为长文档来训练LDA主题模型,得到隐含主题词的概率分布;将主题帖名带入到隐含主题模型中,得到主题词,增加到主题帖名的特征向量;将特征向量带入SVM算法分类器进行分类,提取汽车相关的主题帖。
三、文本情感极性分类
1.文本分类研究。文本的情感极性分析是对带有主观情感的文本进行语义分析,将文本分为正面、中立、负面三个类型。评论文本中带有的情感倾向能反映用户对主题帖和作者所带有的情感。但基于情感词语语义分析的方法需要借助情感词典,维护成本较高,不适合在研究中使用。因而,本文采用基于统计自然语言的方法对文本评论进行分析。常用的统计自然语言方法的情感分类器有:支持向量机(SVM)、朴素贝叶斯(NB)、最大熵(ME)等。本文采用支持SVM作为文本情感分类器。
2.文本特征提取。在主题帖中,评论多为正面或中立,负面评论少容易导致统计结果的不准确。本文在基于统计自然语言的方法上,针对实际不均衡分类方法提出了改进的统计量法。统计量法假定特征项t与文档类别c之间符合具有一阶自由度的卡方分布。而针对不均衡集的改进CHI特征方法中t对于c的CHI统计值的公式(1)如下所示:
(1)
N为训练所用样本集中所有的文档总数;A为属于c类且包含特征t的文档数;B为不属于c类但包含特征t的文档数;C为属于c类但不包含特征t的文档数;D为不属于c类也不包含特征t的文档数;α为面向小样本类特征项的选择倾向因子;M为所有的样本类别总数;mt为特征t在训练集中所出现过的类别数目。此方法能剔除“负相关”特征项的影响,保留小类特征项并加入识别因子,提高比重少但对分类贡献较大的特征项权重。
3.文本分类器算法。支持向量机(SVM)算法是基于统计学原理的一种机器学习算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化的一种分类算法。支持向量机为二元分类算法,设线性样本集T={(x1,y1),……(xi,yi)}∈(X×Y)i,其中xk∈X∈Rn,yk∈Y={-1,1},n维空间中线性判别函数的一般形式为g(x)=(w.x)+b。如果分类面对所有样本进行了正确分类,那么应满足约束条件yk(w.x+b)+b-1≥0,k=1,……,i最优分类面应使两类样本决策面的最小距离■最大,在约束条件下最小化Φ(w),即■w.w。再采用lagrange乘子法可以算出原问题优化问题的对偶形式,约束条件为:
■a■y■=0,a■≥0,k=1……,i(6)
然后对lagrange函数的系数αk进行求解下列函数的最大值
?专(a)=■?坠■-■■■ykyj?坠■?坠j(xkxj)(7)
这是二次函数最优解的问题。若?坠k*为最优解,则
W*=■yk?坠■*x■(8)
其中等式必须满足?坠■(yk(w.xk+b)-1)=0 k=1,…i,求解上述問题后得到最优分类函数为
f(x)=sgn■w*.x*+b*=sgn■ykak(xk·x)+b(9)
4.Leader-PageRank算法。传统PageRank可用于社交网络节点影响力的计算,但忽略了用户间的互动情况。Leader-PageRank算法考虑了社交网络中用户评论关注情况,增加了用户间的情感属性。边权重公式如下(2):Wij=■+F■(2)
Wij为节点j对节点i的综合权重;■e■为节点j对节点i所有回帖评论的情感倾向综合,单条正面评论取值1,中立评论取值0.5,负面评论取值为-2;nij代表节点j对节点i所有评论交互次数;Fij为节点j是否关注节点i。Wij的取值范围为[2,-2],概括了社交网络中用户之间的关系。将Wij代入到Leader-PageRank的公式中,具体计算如公式(3)所示。
LPR(i)=■+d■j∈R(i)LPR(j)■(3)
LPR(i)是节点i的Leader-PageRank值;d为阻尼因子0.85;N为总数;R(i)为指向节点i的所有集合;
■|W■|为节点j链接出去的边的所有权重绝对值总和。对Leader-PageRank多次迭代,得到基于用户关注与互动情况的社交网络正面意见领袖排名。
四、实验与分析
我们在汽车之家网上论坛中选取了100名用户,并且基于上述主题帖分类和情感分类的结果,我们共提取汽车相关的主题帖314条,共提取这些主题帖下的互动评论9346条,抽取样本评论3216条,其中负面回复数为小类别集,占样本集的7.11%。利用Leader-PageRank算法算出他们的意见领袖值。
通过对比Pagerank算法的值,我们可以分析出结合情感分析的Leader-Pagerank算法的客观性。如用户N054,它在Pagerank算法中的意见领袖值排名第十,但在Leader-Pagerank中意见领袖排名跃居第一,说明该意见领袖虽然在社交网络结构中的影响力不大,但它发表了许多专业性的主题帖且收获了许多的正面评价,因此意见领袖值发生了巨大的变化。
本文基于情感分析特征对社交网络中意见领袖的识别的问题进行研究。该算法不仅充分考虑了用户的显性能力:信息传播过程中的活跃度,更加注重对用户在信息传播过程中信息质量、效果及评论人的认可度等隐性能力的综合考量。然而本文仍然存在一些不足,如搜集的数据比较少,不能更加准确地比较情感分析的优势。
参考文献:
[1]钮亮.基于粗糙集_AHM的新浪微博意见领袖挖掘[M].电子科技大学学报,2016,(1).
[2]肖宇,许炜,夏霖.一种基于情感倾向分析的网络团体意见领袖识别算法[J].计算机科学,2012,39(2):34-37.