APP下载

基于Vague软集相似度量的网络舆情综合评判方法

2018-05-07王伟武君胜朱志祥杨文超

西北工业大学学报 2018年2期
关键词:查全率度量评判

王伟, 武君胜, 朱志祥, 杨文超

1.西北工业大学 软件与微电子学院, 陕西 西安 710072; 2.西安邮电大学 物联网与两化融合研究院, 陕西 西安 710061; 3.西北工业大学 计算机学院, 陕西 西安 710072

Gau和Buehrer在1993年提出的Vague集理论[1]是对Fuzzy集的补充和扩展。在处理不确定性信息时,Vague集比传统的模糊集有更强的表达能力和灵活性,是一种新型的处理模糊性问题的数学分析模型。软集理论[2]是Moldtsov在1999年提出的一种新的处理不确定性和不精确性信息的数学工具,该理论引入了参数化思想,克服了Vague集只能处理部分不确定性信息的不足,在模式识别、数据挖掘、模糊决策、图像检索等实际问题中,有很大的应用潜力。上述2种理论都从不同角度聚焦信息系统中知识的不确定、不完备和不精准等问题,在实际应用时既相互联系又相互补充,因此可以进行融合,以发挥各自的优势,弥补各自的不足。针对Vague集和软集的融合问题,文献[3-6]将Vague集与软集理论进行结合,提出了新的Vague软集模型,并研究了相关性质及系列问题,目前已成为一个新兴的研究方向。在基于Vague软集的不确定信息处理中,判定2个Vague软集模式的相似度,是研究基于Vague软集的知识划分、模糊决策及综合评判等问题[7-9]的前提,吸引了众多研究者的关注。

分析发现,Vague软集的本质是具有Vague集区间特征的软集。一个区间的特征,一般有4个重要的参数,即其左(右)端点、区间长度以及中点等。因此,在研究Vague软集的相似度量方法时应充分考虑Vague集的所有数值区间特征,包括真隶属度、假隶属度、犹豫度、核以及Vague值的区间中心等主要特征。现有文献给出的Vague软集相似度量公式,大多是从部分因素来衡量Vague软集的相似度量。如文献[10-11]提出的Vague软集相似度量衡量方法只考虑了Vague集的真隶属度、假隶属度以及核的差异性,却忽略了犹豫度和Vague值的区间中心等特征因素;文献[12]提出的Vague软集相似度量公式,重点考虑了真隶属度、假隶属度以及犹豫度的差异性,没有充分考虑Vague集核以及Vague值区间中心2个特征因素;文献[13]基于欧式距离提出了一种考虑真隶属度、假隶属度以及犹豫度差异性的Vague软集相似度量方法,忽略了Vague集核及区间中心2个特征因素;文献[14]引入参数权重提出一种Vague软集相似度量方法,但只考虑了Vague集真隶属度、假隶属度以及犹豫度的差异性;文献[15]提出的Vague软集相似度量公式只简单考虑了Vague集真假隶属度的差异性。本文在上述研究的基础上,将Vague值的区间中心这一重要特征引入Vague软集相似度理论进行研究,并给出了新的Vague软集相似度量的定义及公理化证明,同时将结果应用到网络舆情综合决策分析问题,对与此相关的一些关键问题进行了探索性研究,本文的相关研究结果,可为网络舆情评判等其他综合决策问题提供了理论基础。

1 预备知识

下面对有关基础理论进行描述。

1.1 Vague软集

Vague软集模型描述如下:

定义1(Vague软集) 设U是一个论域,E是一个参数集,A⊆E,且F:A→P(U)是一个映射,即对∀e∈A,F(e)为U上的一个Vague集,称(F,A)为U上的一个Vague软集。

定义2(Vague软相等) 设(F,A)、(G,B)为U上的2个Vague软集,若A⊆B,且对于∀e∈A,x∈U,有tF(e)(x)≤tG(e)(x),fF(e)(x)≥fG(e)(x),则称(F,A)软包含于(G,B)(或称(G,B)软包含(F,A)),记作(F,A)⊆~(G,B)(或(G,B)⊇~(F,A));若有(F,A)⊆~(G,B)且(G,B)⊇~(F,A),则称(F,A)与(G,B)Vague软相等。

定义3(Vague软集的补集) 设(F,A)为U上的一个Vague软集,称(F,A)c=(Fc,A)为(F,A)的补,其中Fc:A→V(U),即对于∀e∈A,x∈U,有:

tFc(e)(x)=fF(e)(x),1-fFc(e)(x)=1-tF(e)(x)

定义4(相对空的Vague软集) 设U是一个论域,E是一个参数集,A⊆E,(F,A)为U上的一个Vague软集,若对∀e∈A,有x∈U,tF(e)(x)=0,1-fF(e)(x)=0,则称(F,A)为U上的一个相对空的(相对于参数集A)Vague软集,记为φA。

定义5(相对全的Vague软集) 设U是一个论域,E是一个参数集,A⊆E,(F,A)为U上的一个Vague软集,若对∀e∈A,x∈U,有tF(e)(x)=1,1-fF(e)(x)=1,则称(F,A)为U上的一个相对全的(相对于参数集A)Vague软集,记为μA。

1.2 Vague软集间的相似度量定义

文献[10]提出了Vague软集间的相似度量应满足的公理化定义:

定义6设VSS(U)表示论域U上的Vague软集,E是一个参数集,(F,E),(G,E)∈VSS(U),函数M:VSS(U)×VSS(U)→[0,1]称为Vague软集间的相似度量。如果其满足以下条件:

准则1 有界性:M((F,E),(G,E))∈[0,1];

准则2 对称性:M((F,E),(G,E))=M((G,E),(F,E));

准则3 归一性:M((F,E),(G,E))=1⟺(F,E)=(G,E);

准则4 单调性:(F,E)⊆(G,E)⊆(H,E),则:

M((F,E),(H,E))≤min(M((F,E),(H,E)),M((G,E),(H,E)))。

通过Vague软集间相似度量的理化定义,可知2个Vague软集间的相似度量越大,则这2个Vague软集越相似。

2 新的Vague软集的相似度量

针对已有文献提出的Vague软集间相似度量的局限性,下面提出一种新的Vague软集间相似度量公式,充分考虑了Vague集的真隶属度、假隶属度、犹豫度、核以及Vague值的区间中心等区间特征因素。

定理1设U={x1,x2,…,xn}是一个论域,E={e1,e2,…,em}是一个参数集,VSS(U)表示论域U上的Vague软集,已知(F,E),(G,E)∈VSS(U),则称下式为Vague软集的相似度量:

M((F,E),(G,E))=

∑mi=1λi1-17n∑nj=1[|tF(ei)(xj)-tG(ei)(xj)|+

|fF(ei)(xj)-fG(ei)(xj)|+

|πF(ei)(xj)-πG(ei)(xj)|+

|SF(ei)(xj)-SG(ei)(xj)|+

|φF(ei)(xj)-φG(ei)(xj)|]

式中,πF(ei)(xj)=1-tF(ei)(xj)-fF(ei)(xj)和πG(ei)(xj)=1-tG(ei)(xj)-fG(ei)(xj)分别为2个Vague软集F(ei)和G(ei)中元素xj的犹豫度,它表征对于参数ei来说,现有证据对元素xj的弃权信息。SF(ei)(xj)=tF(ei)(xj)-fF(ei)(xj)和SG(ei)(xj)=tG(ei)(xj)-fG(ei)(xj)分别为2个Vague软集F(ei)和G(ei)中元素xj的核,它表征对于参数ei来说,现有证据对元素xj支持和反对2种力量的对比。φF(ei)(xj)=1-tF(ei)(xj)+fF(ei)(xj)2和φG(ei)(xj)=1-tG(ei)(xj)+fG(ei)(xj)2分别为2个Vague软集F(ei)和G(ei)中元素xj的区间中心。λi为参数ei的权重。

下面证明新的Vague软集间相似度量是否满足公理化定义。

证明:

(1) 易知:πF(ei)(xj)∈[-1,1],πG(ei)(xj)∈[-1,1],SF(ei)(xj)∈[-1,1],SG(ei)(xj)∈[-1,1],φF(ei)(xj)∈[0,1],φG(ei)(xj)∈[0,1],|tF(ei)(xj)-tG(ei)(xj)|≤1,|fF(ei)(xj)-fG(ei)(xj)|≤1,又:

|πF(ei)(xj)-πG(ei)(xj)|≤2,|SF(ei)(xj)-SG(ei)(xj)|≤2,|φF(ei)(xj)-φG(ei)(xj)|≤1。因此,

0≤[|tF(ei)(xj)-tG(ei)(xj)|+|fF(ei)(xj)-fG(ei)(xj)|+|πF(ei)(xj)-πG(ei)(xj)|+|SF(ei)(xj)-

SG(ei)(xj)|+|φF(ei)(xj)-φG(ei)(xj)|]≤7;所以,

0≤1-17n∑nj=1|tF(ei)(xj)-tG(ei)(xj)|+

|fF(ei)(xj)-fG(ei)(xj)|+

|πF(ei)(xj)-πG(ei)(xj)|+

|SF(ei)(xj)-SG(ei)(xj)|+

|φF(ei)(xj)-φG(ei)(xj)|≤1,

0≤∑mi=1λi1-17n∑nj=1[|tF(ei)(xj)-tG(ei)(xj)|+

|fF(ei)(xj)-fG(ei)(xj)|+

|πF(ei)(xj)-πG(ei)(xj)|+

|SF(ei)(xj)-SG(ei)(xj)|+

|φF(ei)(xj)-φG(ei)(xj)|]=∑mi=1λi·1=1,0≤M((F,E),(G,E))≤1,有界性成立,即能满足准则(1)。

(2) 由于

|tF(ei)(xj)-tG(ei)(xj)|+|fF(ei)(xj)-fG(ei)(xj)|+|πF(ei)(xj)-πG(ei)(xj)|+|SF(ei)(xj)-SG(ei)(xj)|

+|φF(ei)(xj)-φG(ei)(xj)|=|tG(ei)(xj)-tF(ei)(xj)|+|fG(ei)(xj)-fF(ei)(xj)|+|πG(ei)(xj)-πF(ei)(xj)|

+|SG(ei)(xj)-SF(ei)(xj)|+|φG(ei)(xj)-φF(ei)(xj)|,故M((F,E),(G,E))=M((G,E),(F,E)),对称性成立,即能满足准则(2)。

(3) 由于M((F,E),(G,E))=1,故

|tF(ei)(xj)-tG(ei)(xj)|+

|fF(ei)(xj)-fG(ei)(xj)|+

|πF(ei)(xj)-πG(ei)(xj)|+

|SF(ei)(xj)-SG(ei)(xj)|+

|φF(ei)(xj)-φG(ei)(xj)|=0,所以,

|tF(ei)(xj)-tG(ei)(xj)|=|fF(ei)(xj)-fG(ei)(xj)|=

|πF(ei)(xj)-πG(ei)(xj)|=|SF(ei)(xj)-SG(ei)(xj)|

=|φF(ei)(xj)-φG(ei)(xj)|=0

故tF(ei)(xj)=tG(ei)(xj),fF(ei)(xj)=fG(ei)(xj),πF(ei)(xj)=πG(ei)(xj),即,归一性成立,即能满足准则(3)。

(4) 因为(F,E)⊆(G,E)⊆(H,E),所以,

tF(ei)(xj)≤tG(ei)(xj)≤tH(ei)(xj),fF(ei)(xj)≥fG(ei)(xj)≥fH(ei)(xj),则:

|tF(ei)(xj)-tH(ei)(xj)|≥|tF(ei)(xj)-tG(ei)(xj)|,|fF(ei)(xj)-fH(ei)(xj)|≥|fF(ei)(xj)-fG(ei)(xj)|又:SF(ei)(xj)-SH(ei)(xj)=tF(ei)(xj)-tH(ei)(xj)+fH(ei)(xj)-fF(ei)(xj),

SF(ei)(xj)-SG(ei)(xj)=tF(ei)(xj)-tG(ei)(xj)+fG(ei)(xj)-fF(ei)(xj),于是,

|SF(ei)(xj)-SH(ei)(xj)|≥|SF(ei)(xj)-SG(ei)(xj)|;

又:πF(ei)(xj)-πH(ei)(xj)=tH(ei)(xj)-tF(ei)(xj)+fH(ei)(xj)-fF(ei)(xj),

πF(ei)(xj)-πG(ei)(xj)=tG(ei)(xj)-tF(ei)(xj)+fG(ei)(xj)-fF(ei)(xj),于是,

|πF(ei)(xj)-πH(ei)(xj)|≥|πF(ei)(xj)-πG(ei)(xj)|;

又,φF(ei)(xj)-φH(ei)(xj)=12[tH(ei)(xj)-tF(ei)(xj)+fF(ei)(xj)-fH(ei)(xj)],φF(ei)(xj)-φG(ei)(xj)=12[tG(ei)(xj)-tF(ei)(xj)+fF(ei)(xj)-fG(ei)(xj)],于是,

|φF(ei)(xj)-φH(ei)(xj)|≥|φF(ei)(xj)-φG(ei)(xj)|。

综上:

1-17n∑nj=1|tF(ei)(xj)-tG(ei)(xj)|+

|fF(ei)(xj)-fG(ei)(xj)|+

|πF(ei)(xj)-πG(ei)(xj)|+

|SF(ei)(xj)-SG(ei)(xj)|+

|φF(ei)(xj)-φG(ei)(xj)|≥

1-17n∑nj=1|tF(ei)(xj)-tH(ei)(xj)|+

|fF(ei)(xj)-fH(ei)(xj)|+

|πF(ei)(xj)-πH(ei)(xj)|+

|SF(ei)(xj)-SH(ei)(xj)|+

|φF(ei)(xj)-φH(ei)(xj)|

即M((F,E),(G,E))≥M((F,E),(H,E))。同理可得,M((H,E),(G,E))≥M((F,E),(H,E)),所以,

M((F,E),(H,E))≤min(M((F,E),(H,E)),M((G,E),(H,E)))。单调性成立,即能满足准则(4)。

证毕。

3 基于Vague软集相似度量的网络舆情综合评判方法

如何基于数据挖掘关键技术,实现高效畅通网上舆情的发现、分析、评估、预警、处置和反馈机制,是众多舆情监管部门亟待解决的重要问题。对如何在传播扩散、民众关注、内容敏感性、信息透明度、响应速度等多维度下,对网络舆情事件的安全性进行评估,从而甄别出苗头性、敏感性、危害性较大的网络舆情信息,是其中的关键环节。

设某舆情监管部门拟对一组网络舆情事件的安全性进行评估,从中筛选出最安全的舆情事件,有5个舆情事件可供研判,分别记为X1,X2,X3,X4,X5,这5个事件所具有的特征均以参数集表示:

E={e1,e2,e3,e4,e5}={传播扩散快,政府响应快,民众关注度高,信息透明度高,内容敏感度高}。各参数的权重分别为{0.21,0.32,0.15,0.13,0.19,}。设定论域U仅包含支持和反对2个元素,记为U={支持,反对}。依据实际情况,舆情专家对最安全的舆情事件给出Vague软集(X,E)的评价值如表1所示,专家给出5个舆情事件的Vague软集评价值如表2~6所示。

表1 最安全事件X的VSS(U)

表2 事件X1的VSS(U)

表3 事件X2的VSS(U)

表4 事件X3的VSS(U)

表5 事件X4的VSS(U)

表6 事件X5的VSS(U)

依据新的Vague软集相似度量公式分别计算事件X1,X2,X3,X4,X5与最安全事件X评价值的相似度,结果如表7所示:

表7 相似度计算结果

结果显示,事件X1,X2,X3,X4,X5与最安全事件X评价值的相似度可按降序排列为:M((X2,E),(X,E))>M((X4,E),(X,E))>M((X5,E),(X,E))>M((X1,E),(X,E))>M((X3,E),(X,E)),可以看出:

事件X2与最安全事件X评价值的相似度最高,为0.648,说明事件X2的评价值最接近最安全事件X的评价值,因此事件X2可划分为安全事件范畴。实验表明,基于Vague软集相识度量的舆情综合评判分析方法在实际问题中是有效和实用的。

4 实验及结果分析

为验证新的Vague软集相似度量方法在大规模网络舆情数据集下的综合评判效果,本节基于MapReduce框架模型对基于Vague软集相似度量的聚类算法并行化以改进传统的Vague软集聚类算法,使其适应MapReduce并行编程模型,从而能够有效地解决海量数据下的Vague软集聚类问题,以达到综合评判的效果。对大规模网络舆情数据集的实验结果证明,基于改进Vague软集相似度量的聚类算法在正确率和加速比性能方面,均优于传统的Vague软集聚类算法。

4.1 实验环境和数据集

本实验在由7台计算机组成的集群上运行,实验采用了Apache基金会下的Hadoop分布式框架。将其中1台机器作为主节点即NameNode (或JobTracker)节点,其余6台机器作为从节点即Data-Node(或TaskTracker) 节点。每台机器的硬件配置如下:CPU型号为Intel Xeon7420四核64位处理器,支持虚拟化,频率为2.13GHz,内存大小为64G,硬盘大小为6T,操作系统为Ubuntu 13.10,锐捷RG-S2928G-E千兆交换机,开发工具和平台为Eclipse 8. 5、JDK 1. 7、Hadoop 2.7.1。

实验数据采用某社情民意大数据平台采集的真实微博舆情数据。该平台通过约200台服务器群不间断对涉及40 000个全国、全球重点网站、论坛的150 000个站点,4家国内外微博等数据实时采集。目前该数据集搜集了已覆盖超过350 000个采集点,超过1亿的微博博主信息,微博入库量1 000万条。实验拟对微博热点话题进行聚类研究以综合评判,分别从聚类的准确率PRE和查全率REC来分析聚类的质量和评判效果,从算法的加速比Sp来衡量基于MapReduce的分块模糊聚类并行化的性能和效果。

4.2 算法加速比分析

为了测试算法的性能,实验中分别随机选取5组数据集进行测试,分别包含3 000、10 000、100 000条、500 000条、1 000 000条微博数据,分别从规模性、多样性、高速性、价值性4个参数特征考虑微博的舆情特性,其权值为{0.29,0.31,0.18,0.22}。对每一组数据分别使用基于MapReduce的Vague软集相似度量的聚类算法运行8次,实验中算法的加速比分析如表8所示:

表8 算法的加速比分析

从实验结果可以看出,当数据集较小时,算法在Hadoop分布式框架下的运行时间比单机环境下长,主要是因为MapReduce过程中数据集的划分和聚类结果合并花费了较多的时间;而随着数据量不断增大时,通过MapReduce并行化改造后的聚类算法在Hadoop分布式框架下的运行时间明显低于单机环境下的运行时间,数据量越大则并行计算的优势越明显,Hadoop系统对大规模数据集的处理能力也越强。实验表明基于MapReduce的Vague软集聚类算法在对大规模数据处理时能够得到较好的加速比。

4.3 算法准确率和查全率分析

由于Vague软集聚类评判结果受Vague软集之间相似度阈值选取的影响,因此实验采用新的相似度量的多个不同阈值进行实验,对每个阈值分别求出聚类的平均准确率和平均查全率,结果表明基于MapReduce的Vague软集聚类算法在5组数据集上的平均准确率和查全率均高于传统Vague软集聚类算法。实验结果如表9所示。

表9 算法的准确率及查全率比较

分析发现,当聚类数据集规模较小时,2种算法的准确率和查全率基本都在0.85以上,但当数据样本逐渐增大时,传统Vague软集聚类算法所得到的准确率和查全率与基于MapReduce的并行化聚类算法有明显差异,这是由于当数据量增大时,数据集中会出现很多非球形的不规则的类簇,而传统Vague软集聚类算法对于非球形簇并没有很好的聚类效果。基于MapReduce的Vague软集并行化聚类算法所得到的准确率和查全率明显优于传统Vague软集聚类算法。

5 结 论

本文在研究已有Vague软集相似度量问题的基础上,分析了现有Vague软集相似度量方法的不足,将Vague集的区间中心这一Vague集的重要参数特征引入Vague软集相似度量方法中开展研究,从而提出了一种新的Vague软集相似度量算法,并给出了公理化证明。通过对大规模舆情数据集的综合评判实验结果表明,该方法是一种有效的基于Vague软集相似度量的网络舆情综合评判分析方法。Vague软集数学模型为解决网络舆情分析等决策问题提供了良好的理论工具和数学模型,有较好的应用前景。

参考文献:

[1] Gau W L, Buehrer D J. Vague Sets[J]. IEEE Trans on Systems, Man, and Cybmetics, 1993, 23(2): 610-614

[2] Molodtsov D. Soft Set Theory-First Results[J]. Computers & Mathematics with Applications, 1999, 37: 19-31

[3] Wei X, Jian M, Shou W, et al. Vague Soft Sets and Their Properties[J]. Computers & Mathematics with Applications, 2010,59(2): 787-794

[4] Ganeshsree S. Vague Soft Rings and Vague Soft Ideals[J]. International Journal of Pure and Applied Mathematics, 2012, 6(12): 557-572

[5] Yun Y, Young J, Jianming Z. Vague Soft Hemirings[J]. International Journal of Pure and Applied Mathematics, 2011, 62(1): 199-213

[6] Nasruddin H, Khaleed A. Vague Soft Expert Set Theory[J]. AIP Advances, 2013(1522): 953-958

[7] Alhazaymeh K. Generalized Vague Soft Set and Its Applications[J]. International Journal of Pure and Applied Mathematics, 2012, 77(3): 391-401

[8] Alhazaymeh K, Nasruddin H. Interval-Valued Vague Soft Sets and Its Application[J]. Advances in Fuzzy Systems, 2012, 2012(15): 1077-1083

[9] Teng Y, Wang C. Multicriteria Fuzzy Decision-Making Method Based on Vague Soft Sets[J]. Computer Engineering and Applications, 2012, 48(10): 6-8

[10] 王昌. Vague软集的相似度量及其应用[J]. 统计与决策, 2012, 350(2):115-117

Wang Chang. Similarity Measurement and Application of Vague Soft Sets[J]. Statistics and Decision Making, 2012,350(2):115-117 (in Chinese)

[11] Chang W, An Q. Entropy, Similarity Measure and Distance Measure of Vague Soft Sets and Their Relations[J]. Information Sciences, 2013, 244(20):92-106

[12] 陈文, 余本功. 基于Vague软集的模糊群决策方法研究[J]. 计算机工程与应用, 2014, 50(7):104-107

Chen Wen, YU Bengong. Research on Fuzzy Group Decision Making Method Based on Vague Soft Set[J]. Computer Engineering and Applications, 2014, 50(7):104-107 (in Chinese)

[13] 刘庆,王昌. 基于Vague软集的投资决策方案优选方法研究[J]. 科技通报, 2015, 31(1):4-8

Liu Qing, Wang Chang. Research on Optimized Method of Investment Decision Program Based on Vague Soft Sets[J]. Bulletin of Science and Technology, 2015, 31(1):4-8 (in Chinese)

[14] 刘庆,王昌. 基于Vague软集相似度量的快速估算模型[J]. 河北大学学报:自然科学版, 2014, 34(5):460-474

Liu Qing, Wang Chang. Fast Estimation Model Based on Similarity Measures Between Vague Soft Sets[J]. Journal of Hebei University: Natural Science Edition, 2014, 34(5):460-474 (in Chinese)

[15] 彭新东,杨勇. 区间值模糊软集的信息测度及其聚类算法[J]. 计算机应用, 2015,35(8):2350-2354

Peng Xindong, Yang Yong. Information Measures for Interval-Valued Fuzzy Soft Sets and Their Clustering Algorithm[J]. Journal of Computer Applications, 2015, 35(8):2350-2354 (in Chinese)

猜你喜欢

查全率度量评判
有趣的度量
交流与评判
模糊度量空间的强嵌入
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
基于学习的鲁棒自适应评判控制研究进展
海量图书馆档案信息的快速检索方法
基于词嵌入语义的精准检索式构建方法
诗歌评判与诗歌创作
地质异常的奇异性度量与隐伏源致矿异常识别
中文分词技术对中文搜索引擎的查准率及查全率的影响