基于复杂网络构建面向主题的在线评论挖掘模型
2015-10-28何有世等
何有世等
摘要:以在线评论内容为节点,内容间的语义相似度为链接的权重,结合复杂网络思想,构建在线评论网络,该网络的可行性也通过网络的全局统计数据得到了论证。在评论网络的“社区结构特性”的基础上划分面向主题的网络社区;基于传统复杂网络节点重要性评价方法的同时,结合社区属性,构建重要评论的多属性决策方法。并通过仿真实验验证了该模型在全局以及局部网络的可行性与准确性。
关键词:在线评论;复杂网络;网络社区;语义相似度
DOI:10.13956/j.ss.1001-8409.2015.10.25
中图分类号:F713;TP311文献标识码:A 文章编号:1001-8409(2015)10-0115-05
Abstract:Based on complex network theory, this paper constructed online reviews network through regarding reviews content as the network nodes and the semantic similarity between reviews as the weights of link. The feasibility of network was demonstrated by the analysis of the global statistics. This paper demonstrated the rationality of the network through the analysis of the global statistics of reviews network. And it divided the reviews network community of subjectoriented according to the “community structure features” of reviews network. Based on the traditional node importance evaluation methods of complex network in combination with community attribute, it built a multipleattribute decisionmaking method of important reviews. And through the simulation experiments, it verified the feasibility and accuracy of the model.
Key words:online reviews; complex networks; network community; semantic similarity
据CNNIC关于网络购物中消费者的相关行为研究发现,43%的消费者将在线评论作为网络购买决策的重要依据[1]。而且在线评论也可以作为反馈信息,帮助生产商和网络销售商改进产品以及服务,从而获得优势。
但是面对海量评论,消费者无法快速辨别和利用有价值的信息来作出正确的决策。因此针对在线评论挖掘的研究被学者们所关注,Popescuam等将在线评论挖掘细分为4个子任务:特征抽取、观点抽取、极性判断、结果汇总[2]。而关于在线评论的有用性影响因素的研究[3],大多数基于特定的易于获取的评论数据源,如亚马逊商城数据[4]等。
传统在线评论的有用性研究中,评论数据源获取缺乏普遍性,并没有充分挖掘网络世界中海量的相关主题的在线评论,导致研究方法缺乏适用性,并且针对在线评论的有用性研究只是对评论进行有用或无用的划分,评论数据源并没有实质性的缩减,而且有用的评论间也有可能存在不同的观点,这时确定谁的观点更重要就尤为关键。本文依据相关主题在线评论在内容上具有的“普遍联系”、“语义内聚”的特点,将在线评论数据源看做以特定方式相联系的一种网络拓扑形态,并引入复杂网络思想[5],将在线评论中的每条评论设定为复杂网络中的一个节点,利用评论节点间的语义相似度确定节点的链接关系,构建基于复杂网络的评论网络模型。
1在线评论网络模型分析
面对海量的在线评论,帮助消费者快速识别评论内容的重要性是评论网络模型的关键功能,而若要从海量、存在大量噪声的评论数据中提取出合适的数据源,不能单独以评论文本内容的长度以及深度作为判断标准。就评论节点个体而言,节点的内容是随机的,但评论节点组成的网络呈现出的“语义内聚”与“普遍联系”的特点恰好与复杂网络的“无标度特性”、“小世界效应”以及“社区结构特性”相吻合。所以不能片面看待评论节点的内容质量,而要结合节点内容之间的语义关联,从宏观层面上识别对消费者指定主题具有重要影响的评论[6]。本文以网络化的视角来刻画在线评论之间的关联,并提出基于复杂网络融合产品主题的重要在线评论挖掘方法,主要包括以下两个模块。
(1)构建评论节点的复杂网络
将评论以网络的形式进行表示,评论间的语义关联转化为链接的关系,可以将原本无序的评论以清晰的网络结构整合起来,利于探索评论节点间的相互作用。评论网络与传统的社会网络具有相似性,构建评论网络需要明确网络中的两个要素,节点以及节点间的链接,节点间的链接关系必须是基于节点中某种可度量的属性来确定的。
(2)面向主题的评论网络社区划分
评论网络中的“社区结构特性”是由于同一产品或相似产品主题的评论节点在语义上具有相似性,使得评论网络依据产品主题呈现社区结构,评论社区的划分可以快速定位消费者指定的主题。在面向主题的社区基础上,基于多属性决策提取相关主题的重要评论[7]。
2构建评论网络
一个完整的网络是节点以及节点间链接的集合体,参照一般社会网络的构建方法,本文以每条评论的文本内容为节点信息,评论间的语义关联为链接,构建评论网络G=(V,E), V={v1,v2,…,vn}是评论网络中的n个节点,即n条在线评论集合,E是vi与vj组成的边的集合,而边(vi,vj)依据节点之间的相似性wij确定,设定阀值μ,若wij≥μ,则节点vi、vj间存在链接。
21节点表示以及链路预测
评论网络中的节点以单条在线评论为主体,并将评论的文本内容以向量空间模型(VSM)的形式表示,考虑到节点的社区归属问题,节点的信息还包括社区标号,节点v的信息在网络中表示成v={(v1,v2,…,vm),m}。
网络中的链路预测是指通过已知的网络拓扑结构或节点属性等信息预测网络中两个节点之间存在链接的可能性。本文构建的评论网络,不同于人际网络、生物网络等,链路预测之前并不存在网络拓扑结构,因此利用节点的语义信息预测网络中的链路。
在构建评论网络的过程中,采用TF.IDF的方法计算评论节点间的语义相似度,设节点u和v的文档向量形式是U=u1,u2,...,um,V=v1,v2,...,vm,其中,ui和vi分别表示特征词i在各自评论中的指标值,通过TF.IDF计算[8]:
w(u,v)=U·VU×V=∑mi=1uivi∑mi=1u2i∑mi=1v2i(1)
并用w(u,v)表示边(u,v)的权重,若w(u,v)≥μ,则节点u、v间存在链接。
在利用节点间的语义相似度进行链路预测的同时,通过实验结果分析得到同一网页中的评论绝大多数描述的是同一个主题,但可能存在评论观点相对,导致网页内评论间的语义相似度较低,使得网页内的链路较少,因此本文初始化评论网络中网页内的节点间存在链接。
22阀值μ的确定
本文通过百度搜索引擎获取实验数据,并以手机、笔记本以及相机3种产品作为研究对象,进行实验数据的采集,并以各采集到1000个网页为采集器停止条件,对采集的网页进行清洗,提取产品评论数据,实验数据集如表1所示。
通过实验数据集构建评论网络,并初始化网页内的节点间存在链接。运用半正态概率图法对评论节点间语义相似度数据进行假设检验,结果显示它们近似服从半正态分布,如图1所示。
在初始化的评论网络中,网页内的节点间存在链接,网页间的节点间没有链接,随着阈值μ的增大,网页内节点间的链接减少的比例不断增加,而网页间节点间的链接增加的比例不断减少,如图2所示。
由图2发现,在半正态分布的4σ点评论网络链接数量保持稳定,说明这时网络鲁棒性最强,本文设定节点间语义相似度的阈值μ=4σ,并且在4σ点网页内节点间的链接比例占80%左右,网页间节点间的链接比例只占20%左右,符合帕累托法则。评论网络的阀值设定与节点间链接的关系如表2所示,从表2中的节点数与节点间链接的比例发现,随着评论节点数的增加,节点间的链接占整个评论网络的比例逐渐减少,这是由于节点数增多时网页间的节点对占整个网络的比例上升,而网页间的节点间语义相似度相比于网页内的节点间语义相似度而言相对较小。
23评论网络的全局统计数据分析
通过节点间的语义相似度与阀值μ的比较,去除网页内节点间语义相似度wij<μ的链接,添加网页间节点间语义相似度wij≥μ的链接,形成评论网络,对构建的评论网络使用可视化网络分析软件pajek,通过分析评论网络的度分布[9]、平均路径长度[10]和聚集系数3个指标与随机网络的关系,以确定本文构建的评论网络符合复杂网络的特性。全局统计数据如表3所示。
(1)度分布
在评论网络中,度分布表示与某一评论节点具有链接的节点数量,实验中3个评论网络的节点平均度分布分别为11、12、14,基本符合随机网络的节点平均度分布,而且评论网络中少数评论节点具有较大的度分布,包含了某一主题内的消费者关注的大部分信息,因此,评论网络的度分布基本满足幂律分布。
(2)平均路径长度
平均路径长度是指评论网络中任意两个节点之间距离的平均值[6]。由上表可知3个评论网络的平均路径长度与相同规模的随机网络平均路径长度基本一样,可以认为3个网络都具有良好的连通性,基于在线评论构建的评论网络相比其他的数据源,更适合评论的挖掘。
(3)聚集系数
聚集系数反映的是相邻节点之间联系的紧密程度,具有小世界效应的评论网络的聚集系数远远大于随机网络的聚集系数[6],这是因为面向单个主题的评论网络中的大多数节点具有较高的语义相似度而聚集,并聚集在度大的节点旁,这也近一步说明了评论网络中能对消费者购买决策产生影响的节点是少部分重要评论节点。
通过分析评论网络的全局统计数据,发现评论网络的度分布符合幂律分布,认为评论网络具有复杂网络的无标度特征,另外,较小的平均路径长度以及较高的聚集系数体现了评论网络的小世界特征。因此,本文经过3个在线评论数据集的实证,论证了基于复杂网络理论构建评论网络的合理性。
3面向主题的评论网络社区划分
31在线评论网络社区结构
消费者需求的不同导致评论内容的不同,不同消费者在意的产品特征具有很大差异,但关注相同特征的评论发布者,所发布的评论之间又具有较强的语义相似度。在构建的评论网络中,以具有相同特征的评论节点为中心,形成若干规模不等的局部语义相似度较大的网络拓扑结构,就是本文需要划分的在线评论网络社区。
评论网络中评论节点间的语义除了具有相似性之外,还可能存在包含关系,如评论节点Vi是关于笔记本整体的评论,而Vj是关于某具体品牌笔记本的评论,那么节点Vj从属于Vi,评论网络就具有了层次性的社区结构特征。社区结构的另一个特征是重叠性,指评论网络中的某些节点同时属于多个社区,如评论节点Vi的语义中同时包括对特征A和B的描述,那么节点Vi就被同时划分到社区A和B中。这样的节点被称为“骑墙节点”。
传统的社团结构划分方法都是从节点的角度出发,把网络中的节点看作是研究对象,根据节点之间的相似度,把它们划分到不同的社区,这样的处理方法很难从根本上解决“骑墙节点”的归属问题[11]。
考虑到评论网络具有的层次性以及重叠性,本文采用一种能够同时划分层次性与重叠性的算法[12],该算法以边为研究对象,依据边之间的相似度对网络进行社区划分,由于边的社区归属性是唯一确定的,这就可以避免“骑墙节点”对社区划分结果的影响。
32基于边的社区划分算法
该算法核心是根据边的凝聚过程得到网络的层次树结构,对层次树在合适位置处切割,得到社区结构。为了完成边的凝聚,定义相邻边的相似度S为:
4面向主题的在线评论挖掘
复杂网络非同质的拓扑结构,决定了评论网络中节点的重要性的差异。挖掘评论网络中的特定主题的在线评论社区,对其中的重要性在线评论进行深入分析,可以帮助消费者快速做出购买决策。目前,复杂网络中节点重要性的评估方法分为社会网络分析和系统科学分析两类[13],这两类方法各有其优缺点,缺点在于将研究视角局限在某一种网络拓扑结构中。
41结合社区属性的多属性决策
评论网络是一个加权网络,从单一的网络拓扑结构特征分析节点的重要性具有局限性,评论网络中节点的重要性与评论网络的整体结构相关,需要依据不同的网络拓扑结构特征综合分析。因此,本文提出了一种多属性决策方法,综合考虑评论网络的社会网络分析中的介数中心性以及系统科学分析中的Damage值,这些指标综合考虑了评论网络的各项拓扑结构,计算公式分别为:
为了能够确定网络社区内节点的排序,对网络中的节点进行编号,给网络中的每个节点赋予一个ID编码,编码形式为(n,m),n为网络中节点的唯一标识,m为节点被划分到社区的编号。结合社区属性的节点1~10的多属性决策值如表4所示。
对多属性决策变量a的结果进行排序,首先基于整个评论网络进行排序,排序结果为r;再基于所属社区进行排序,得到结果r′。
则将多属性决策变量a表示为a=(n,m,r,r′,a),其中,n为节点编号,m为节点n的所属的社区编号,r为节点n在整个网络中的重要性排名,r′为节点n在社区m中的重要性排名。
5结论与展望
在线评论作为产品口碑传播的一种新形式,对消费者的决策起着重要的影响,但其中大量的良莠不齐的评论也影响了消费者对可靠信息的获取[2]。本文以不同于以往的重要在线评论挖掘研究的思路,构建以评论为节点、节点间的语义相似度作为链接的复杂网络,将原本无序的评论以清晰的网络结构整合起来。在分析评论网络的全局统计数据的基础上,论证了基于复杂网络思想构建在线评论网络的合理性。
考虑到评论网络具有的层次性以及重叠性,本文采用以边为研究对象的一种能够同时划分层次性与重叠性的算法,得到了评论网络的层次树状图,并通过分区密度D对其进行了社区划分。
最后通过结合社区属性的多属性决策方法来评估评论网络中的节点重要性,该方法不仅具有良好的稳定性,而且将重要在线评论的挖掘细化到产品主题,适合消费者从产品的不同角度进行决策。
参考文献:
[1]CNNIC.2009年中国网络购物市场研究报告[R].北京:中国互联网络信息中心,2009.38-42.
[2]李金海,何有世.在线评论信息挖掘分析的数据来源可靠性研究[J].软科学,2015,29(4):94-99.
[3]龚艳萍,梁树霖. 在线评论对新技术产品消费者采用意愿的影响研究[J].软科学,2014,28(2):96-105.
[4]廖成林,蔡春江,李忆.电子商务中在线评论有用性影响因素实证研究[J].软科学,2013,27(5):46-50.
[5]Sun Ye, Liu Chuang, Zhang Chuxu, et al. Epidemic Spreading on Weighted Complex Networks [J]. Physics Letters A, 2014, 378(7):635-640.
[6]姜巍,张莉,戴翼,等.面向用户需求获取的在线评论有用性分析[J].计算机学报,2013,36(1):119-131.
[7]肖忠东,罗志洁,周光辉.复杂网络节点重要性评价方法在生态工业系统中的应用[J].科技进步与对策,2014,31(5):123-126.
[8]Salton G. The SMART Retrieval System- Experiments in Automatic Document Processing [M]. Englewood Cliffs, New Jersey : Prentice Hall Inc,1971.
[9]Gabrilovich E, Markovitch S. Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[A].Proceedings of the 20th International Jonit Conference on Artificial Intelligence[C].2007.1606-1611.
[10]汪小帆,李翔,陈关荣.复杂网络理论及其应用[M].北京:清华大学出版社,2006.
[11]汪小帆,刘亚冰.复杂网络中的社团结构算法综述[J].电子科技大学学报,2009,38(5):537-543.
[12]Ahn Y Y, Bagrow J P, Lehmann S. Communities and Hierarchical Organization of Links in Complex Networks [EB/OL]. http://www.arXiv.org, 2009-03-12.
[13]周漩,张凤鸣,李克武等.利用重要度评价矩阵确定复杂网络关键节点[J].物理学报,2012,61(5):1-7.
(责任编辑:杨锐)