基于电影评论的情感词汇共现网络分析
2020-09-06张琪
张琪
摘 要:针对微博评论文本的情感计算分析大多以情感词语为出发点,因此与情感词语有关的分析处理已经成为情感计算领域的重点。本文针对《我不是药神》电影评论语料进行预处理,构建情感词汇共现网络,并对情感词汇共现网络的统计学特征进行分析和可视化,包括小世界效应、无标度特征、网络社区结构特性、网络抗毁性分析。实证研究结果表明,《我不是药神》电影评论的情感词汇共现网络服从小世界效应,具有无标度特性,能够划分出明显的社区结构。
关键词:情感词汇共现网络;小世界特性;无标度特性;社区特性
中图分类号:J905 文献标识码:A 文章编号:2096-5079 (2020) 16-0-02
一、引言
随着智能手机的普及和互联网技术的发展,互联网平台已经成为人们发表看法、抒发情感的场所。无论是对于中文还是英文文本,词语都通常作为人类表达情感的最小单元,所以有关情感的计算都以情感词为基础,筛选情感词和分析情感词之间的关联成为情感倾向计算的一个主要的方向。
近年来的研究表明,语言学的各个领域都表明具有复杂网络的特性。当前,有关学者已经在词汇共现网络、词法网络以及语义网络等方向展开研究,已经有了一定的成果,并且大多以情感词汇为着手点。何天翔[1]基于大规模语料库和同义词集合构建词—词、词—对象的情感词网,提出了结合情感词网的短文本情感分类方法,并将情感分析应用在网络舆情演化分析中;张向阳[2]等人以词汇共现理论为基础,构建评论的有向网络,根据网络的拓扑性质及综合衡量节点重要性来选择情感分类特征的算法NTFS,效果显著。本文结合情感词汇共现网络的统计学特征,为情感词汇的研究提供统计学依据。
二、情感词汇共现网络构建及网络特征分析
(一)情感词筛选
一般情况下,获取的评论源数据需将原始语料进行预处理,主要包括分词、词性筛选、多词性情感词处理、词频阈值设置、停用词过滤等步骤。
本文選择利用中科院计算所的NLPIR中文分词系统对语料进行分词和词性标注。为改善分词效果,在利用用户词典进行分词时加入了语料中新词发现结果。将经过词性筛选、多词性处理、停用词过滤以及词频处理后的情感词纳入最终的情感词汇集合。
(二)情感词汇共现网络构建
在大规模语料中,若两个词经常共同出现(共现)在截取的同一单元(如一定词语间隔/一句话/一篇文档等)中,则认为这两个词在语义上是相互关联的,而且,共现的频率越高,其相互间的关联越紧密[3]。对于情感词而言,情感词汇的共现可以定义为在一个文本单元中两个情感词共同出现的情况。根据情感词汇集合和情感词汇共现网络的定义,将情感词定义为网络中的节点,两情感词之间出现共现情况则定义为这两个节点中存在一条边,共现的次数为边上的权值,这样就构建出一个具有N个节点的无向加权网络。
(三)情感词共现的复杂网络统计学特征分析
复杂网络的统计学特征主要包括小世界效应、无标度特性、社区结构特性、网络抗毁性以及节点度相关性,这些特性综合反映了复杂网络的结构。
1.小世界效应
小世界效应来源于“六度分离”现象,是指若在情感词共现网络中两个情感词汇的平均最短距离随节点数呈对数增长趋势,则认为该网络具有小世界特性[4][5]。平均路径长度L定义为网络中两个节点i和j之间的距离,dij是指连接这两个节点的最短路径上的边数[5],可以表示为:
其中N表示该网络的总结点数。
2.无标度特性
网络的无标度特性是指网络中各节点的度严重不均匀分布,度分布服从幂律分布。节点i的度ki定义为与该节点相连接的边的数目。大量研究表明,许多实际网络的度分布接近于幂律分布,即:
分布函数P(k)表示网络中度数为k的节点的个数占节点总数的比例。在情感词汇共现网络中,如果节点的度服从幂律分布,那么可以判定其无标度特性。有时,也会通过判别累加度分布是否满足幂律分布来分析网络的无标度特性,累加度分布函数P(k)是指节点度大于k的节点个数占节点总个数的比例[6]。
3.网络抗毁性
网络抗毁性是指网络在受到人为破坏时表现出的可靠性[7]。测试网络的抗毁性通常有两种策略,一种是随机删除节点以观测对网络的影响,称为网络的鲁棒性分析;另一种是按照一定标准选取网络中较为重要的节点进行删除,观察网络性能指标的变化,称为脆弱性分析。在进行网络的脆弱性分析时,可以对节点的度中心度、介数中心度、接近度中心度三个特征参数的值较大的节点进行选择性删除。
网络中度大的节点度中心度高,能够与更多的节点直接相连。网络的节点介数Bi和接近度Cci如公式3和4所示:
其中njk表示节点j,k的最短路径的总个数,njk(i)表示节点i在节点j,k的最短路径上的个数,dij表示节点i与节点j之间的平均路径长度。
4.社区特性
复杂网络的各个节点依据其性质特征和连接的情况可以将其分为不同的类型,满足同一类型的节点以及这些节点之间的边所构成的子图称为网络中的社区。社区分类算法按照社区发现的结果形式可以分为不可重叠社区发现算法和可重叠社区发现算法[8]。当前针对不可重叠的社区的发现算法包括KL算法、谱平分法、GN算法、凝聚算法和分裂算法、贪心算法FN、Louvain快速社区发现算法等;可重叠社区发现算法主要包括派系过滤算法CPM、局部紧密性扩张算法LTE以及LFM算法等。
三、实证分析
(一)数据来源
2018年7月,《我不是药神》电影上映,该电影在反映了尖锐的社会现实,引发了网友的热议,一度登上热搜榜。本研究在新浪微博上爬取电影评论数据,原始语料的数据量共30188条,经过预处理后,保留了1,078个情感词,并构建了相应的情感词汇共现网络。
(二)情感词汇共现网络的小世界特征分析
由表1可知,情感词汇共现网络的平均路径长度与相同规模的随机网络的平均路径长度相当,其聚类系数远大于相同规模的随机网络的聚类系数,符合小世界效应。
(三)情感词汇共现网络的无标度特性分析
图1是情感词汇共现网络的累加度在双对数坐标系下的分布图,满足幂律分布特点,具有无标度特性。该网络中绝大部分节点的度都相对较小,即只有极少部分情感词与其他情感词联系较为紧密,这些能与其他情感词构成紧密联系的节点在网络中占据至关重要的地位,拥有很高的“权力”。
(三)情感詞汇共现网络的网络抗毁性分析
图2反映表示按照蓄意攻击和随机攻击的方式删除节点对平均路径长度的影响。从图中可以看出,随机删除节点对网络指标的影响不大,说明该网络具有一定的鲁棒性,其“容错能力”较强。而针对网络的脆弱性分析,删除节点对网络评价指标的影响呈现先缓慢增长后急剧增长的趋势。
(四)情感词汇共现网络的社区特性分析
图3是情感词汇共现网络的社区可视化分布图,该社区发现结果是通过Louvain快速社区发现算法计算得到,并通过Gephi软件将同一社区的节点填充相同的颜色,进而得到颜色突出显示的社区呈现结果。各社区中特征参数较高的节点如“死” “病魔” “曝光” “天价药”等词语带有明显的消极情感倾向,而“无私” “温暖”等词语带有积极的情感倾向。消极情感词数量稍多于情感倾向为正的情感词数量,可以基本判定本实验语料的情感倾向偏于负向。
四、结论与展望
本文分析了情感词汇共现网络的小世界特性、无标度特性、抗毁性、社区特性,得出以下结论:该情感词汇共现网络符合小世界效应的特征,具有无标度特性;该网络在面临随性的攻击时,表现出较强容错性,但网络面临蓄意攻击时,其平均路径长度明显增加,说明其应对蓄意攻击或大规模攻击时表现出一定的脆弱性;该网络具有明显的社区特性,可以划分成6个完整的社区,社区中参数较高的情感词节点的情感倾向反映出该语料整体带有一定的消极情感。本研究的不足在于受原始评论语句数量和规模的限制,情感词共现网络的节点数量和边数量相对较少,下一步将尝试在更大规模的原始语料中开展实证研究。
参考文献:
[1]何天翔,张晖,李波,杨春明,赵旭剑.一种基于情感分析的网络舆情演化分析方法[J].软件导刊,2015,14(05):131-134.
[2]张向阳,那日萨,孙娜.基于有向网络的在线评论情感倾向性分类[J].情报科学,2016,34(11):66-69+90.
[3]张红月.自然灾害事件的数据依赖性研究[D].北京.中国科学院大学(中国科学院遥感与数字地球研究所),2018.
[4]齐彬,吕婷.共现分析技术在生物医学信息文本数据挖掘中的应用[J].中华医学图书情报杂志,2009,18(03):41-43.
[5]余传明,周丹.情感词汇共现网络的复杂网络特性分析[J].情报学报,2010,29(5):906-914.
[6]张珂.基于复杂网络理论的BBS回复网络研究[D].北京.首都师范大学,2011.
[7]吴敏.BBS用户回复网络演化模型及抗毁性研究[D].北京.首都师范大学,2012.
[8]赵丽娜.复杂网络社区发现算法研究[D].北京.首都师范大学, 2014.