APP下载

短文本的情报价值评估方法研究*

2016-04-08

舰船电子工程 2016年1期
关键词:社交网络

章 宁

(92497部队 陵水 572400)



短文本的情报价值评估方法研究*

章宁

(92497部队陵水572400)

摘要社交网络中的短文本是重要的互联网公开情报来源。为了快速判断短文本的重要程度并进行聚类,论文提出了基于HowNet信息量的情报价值评估方法。与传统分类方法相比,此算法能更快地计算短文本的重要程度,并提高聚类的效率。

关键词社交网络; 短文本; 情报价值; HowNet; 信息抽取

Evaluation Method of Intelligence Value of Short Text

ZHANG Ning

(No. 92497 Troops of PLA, Lingshui572400)

AbstractSocial network sites are important source of Internet open intelligence. To judge importance level of short text and classifying them quickly, this paper presents an information evaluating algorithm based on HowNet, which can solve automatic judgment problem of computer more efficiently compared with traditional methods.

Key Wordssocial network, short text, intelligence value, HowNet, information acquisition

Class NumberTP391.7

1引言

微博等社交网站内容短,时效性强,观点突出。随着全球移动通信网络的扩张,这种极度适合手机阅读的传播方式继续普及,对于各种突发新闻,社交网络比CNN等传媒巨头更有优势[1]。2015年6月份,国内外各大新闻媒体接连报道:美军通过分析ISIS(伊斯兰国,国外恐怖组织)成员在社交网站上发布的自拍照,定点炸毁了他们的总部大楼[2]。简短的博文信息完全可以作为商业竞争或军事情报的素材。

短文本信息形式是社会生活节奏加快的必然产物,广泛学者已经意识到了研究短文本的重要性,针对短文本向量稀疏的特征,目前已经出现了短文本的抽取、过滤、分类、情感倾向性判别的研究[3~7],用到了语义特征抽取[8]、特征权重计算[9]、LDA特征扩展[10~11]、相似度计算[12~13]、本体知识库[14]等各种颇有成效的算法。然而,这些研究不能有效、快速地量化短文本的信息价值,无法直接应用于军事情报分析领域。

在互联网公开情报分析处理系统中,为了判断抓取的短文本的重要程度即价值如何,文献[14]提出了基于本体的信息价值评估算法,以解决短文本的情报价值量化评估问题,然而该算法需多重循环计算词语相似度和相关度,严重影响了情报处理的效率。论文对信息价值评估算法进行了改进,实验数据证明,本文的算法处理速度更优。

2文本价值评估的作用

情报能把战场不确定性减少到何种程度、情报是否可用、使用这份情报将会带来多大的风险等都是指挥员十分关心的问题,而解决这些问题的途径之一就是通过情报评估的方式[15],因此情报评估是制订作战计划和保障指挥的前提。

对于互联网公开情报处理系统,其抓取的信息重要程度如何,是系统进行自动的信息取舍和数据过滤的判断条件,也是情报人员进行人工分析的判断依据。传统的短文本处理技术没有价值评估计算,其实质是分类和检索,即先将海量庞杂的信息分类、有序化,然后通过关键词匹配检索出可能与情报课题有关的数据。本文对文献[14]提出的文本的信息价值评估算法进行了深入研究和补充,通过计算信息量进行快速量化,力求设计一种公开情报的高效处理方法。

3情报质量评估的一般方法

3.1层次分析法在情报质量评估中的应用

层次分析法(Ana1ytic Hierarchy Process,AHP)是美国匹兹堡大学教授T.L.Saaty于20世纪70年代提出的一种简便、灵活而又实用的多准则决策方法[15~16]。它是一种对较为模糊或较为复杂的决策问题使用定性与定量分析相结合的手段做出决策的简易方法,特别是将决策者的经验判断给予量化,将人们的思维过程层次化,逐层比较相关因素,逐层检验比较结果的合理性,由此提供较有说服力的依据。很多决策问题通常表现为一组方案的排序问题,这类问题就可以用AHP法解决。其原理是通过两两比较相互重量,得出每对重量比的判断,从而构成判断矩阵;然后通过求解判断矩阵的最大特征值λmax和它所对应的特征向量,得出整组的相对重量。在情报质量评估过程中,只要引入合理的标度,也可以用来度量各因素之间的相对重要性,从而为有关决策提供依据[15]。

运用层次分析法建模,可按下面四个步骤进行: 1) 建立递阶层次结构模型(如图1所示); 2) 构造出各层次中的所有判断矩阵; 3) 计算判断矩阵的最大特征根和特征向量,层次单排序及一致性检验; 4) 综合评估,层次总排序及一致性检验。

图1 情报价值评估的层次结构模型

关于层次分析法评估情报价值的具体步骤可参考文献[15~16]。根据实际情况抽象出较为贴切的层次结构是建立情报质量评估指标体系层次结构模型中的难点之一。实际军事情报工作与军事情报在作战指挥中的运用需要专业人员的参与。如果所选的要素不合理,其含义混淆不清,或要素间的关系不正确,都会降低AHP法的结果质量,甚至导致AHP法决策失败。

3.2情报的信息价值评估方法

对于传统的军事情报,也有对情报价值进行量化的计算[17],如日本学者比野省三的研究表明,情报的价值可以表示为[18]

(1)

式(1)中,E表示情报的价值,是无量纲的数值;Pi是使用情报时事件发生的概率;Qi是不使用情报时事件发生的概率;Ji是使用情报时的收益;Hi是不使用情报时的收益。

该方法无法较好地应用于军事领域,因为战争是对抗性的活动过程,具备极大的不确定性,而这是一个“事后”公式,因此指挥员在决策前,无法确定Pi和Qi。同样,战场情况千变万化,影响作战最终结果的因素非常多,因此,在作战的最后结果出现前后,都难以准确判断使用或不使用情报时的收益或效果,即Ji和Hi。

3.3基于本体的信息价值评估算法

传统的情报价值评估模型都是针对辅助指挥员作战决策的战场情报,对于实现计算机自动处理互联网信息已经不再适用。文献[14]采取了一种基于本体的信息度量方法,其认为存放情报素材的本地数据库是一个封闭的知识库,抓取的文本的情报价值如何主要取决于其与本地数据库中内容的相似程度与相关程度,它与数据库中的内容越相近,那么情报价值越低,反之则很有可能是新的情报。

为了评估待判断信息Ix与本地情报数据库中记录Ii的相关程度和相似程度,即综合关系,需对Ix中的重要权重词语进行计算。对于从Ix中提取的命名实体,其与数据库中的记录Ii中各命名实体间的最大相关度为Rel(Ix,Ii);对于从Ix中提取的重要词语(名词或动词),其与数据库中的记录Ii中各词语间的最大相似度为Sim(Ix,Ii),那么综合关系Sim_Rel(Ix,Ii)与Sim(Ix,Ii)和Rel(Ix,Ii)满足:

Sim_Rel(Ix,Ii)=Sim(Ix,Ii)+Rel(Ix,Ii)

-Sim(Ix,Ii)×Rel(Ix,Ii)

(2)

待判断的信息Ix的信息价值V满足:

V=-logSim_Rel(Ix,Ii)

(3)

该算法说明,当待判断的文本与本体库记录毫无关系,即Sim_Rel(Ix,Ii)=0时,其信息价值V→∞,即很有可能发现了新的情报,因此应该将该文本入库,成为新的记录;当计算的综合关系Sim_Rel(Ix,Ii)值介于0~1之间时,其信息价值为log1/λ,λ为(0,1)范围内的一个正实数,数据库中的相应记录支持度C增加λ,并更新本体库。

由于需要分别循环计算命名实体间的相关度和重要词语的相似度值,因此算法的时间复杂度为O(n4)。

4基于信息量计算的短文本聚类算法

HowNet是一个揭示概念间关系和概念的属性间的关系的在线知识库,其分层系统不是简单地使用一个概念表示一个节点,对于每一个“义项(概念)”,使用一系列的“义原”来描述。“义原”是描述“义项”的基本单位,如图2所示。

图2 HowNet中义原的分类层次结构

HowNet 2000版包含55501个中文义项,58582个英文义项和1621个义原。HowNet是一部语义详尽的规则词典,是共享的知识分类系统。根据文献[19],信息量计算公式为

(4)

函数hypo(p)返回给定义原的子节点数量,maxhn是义原所存在的分类系统的总数量,由于HowNet 2000版包含1621个义原,本文取maxhn=1621。

文献[12]通过实验证明了这种方法能快速地计算短文本的相似度,并更接近人工语义的判断值。因此,本文定义短文本的情报价值公式为

(5)

即,计算出短文本中信息量最大的词语的负对数函数值作为该短文本的情报价值,由于该方法的计算主要是比较在HowNet中的语义距离,因此算法只需遍历一次HowNet词典,所以复杂度为O(n)。

为了与文献[14]的算法进行比较,本文尝试尽量多地从Twitter上抓取关于“白宫”的推文(1000条),然后加入噪声数据(1000条与主题无关的推文),用两种方法分别从本地数据库中抓取关于“白宫”的短文本,每隔5min记录一次处理的短文本数量,实验结果如表1所示。

表1 短文本抓取记录

从图3可以直观地看出,文献[14]的算法到45min抓取了984条短文本,召回率为98.4%。而本文改进的算法在25min时就抓取了与主题相关的942条短文本,召回率为94.2%。

图3 短文本抓取实验

可见本文的算法效率明显高于文献[14]的算法。召回率低于文献[14]的算法是因为HowNet知识库本身的结构造成的,随着知识库的完善,本文的召回率将会提高。

5结语

2012年伦敦奥运会开幕式在“网络时代”章节中展示了社交网络给人们生活带来的巨大影响。虽然社交网络提倡的自由和共享精神给人们的生活带来了获取信息的便利,但也存在着泄露个人隐私甚至企业和国家情报的风险,这也是西方发达国家将Twitter等社交网站纳入其情报网络的原因。

为了解决短文本的价值评估问题,实现计算机对公开情报的快速处理,本文提出了信息量计算的短文本聚类算法,该算法通过对文本的信息价值计算,能够比传统方法更高效地量化短文本的情报价值,这对互联网军事情报处理具有重要意义。

参 考 文 献

[1] 游彬,刘晓然,李宁,等.社交网络Twitter的推文抽取技术研究[J].舰船电子工程,2012,32(9):113-115.

[2] ISIS总部被美军炸毁[EB/OL].网易新闻,(2015-6-4)[2015-06-20].http://news.163.com/15/0604/15/AR9C81D800014AED.html.

[3] 闫瑞,曹先彬,李凯.面向短文本的动态组合分类算法[J].电子学报,2009,37(5):1019-1024.

[4] 刘伍颖,王挺.基于词模型索引的短文本在线过滤方法[J].华中科技大学学报(自然科学版),2010,38(4):42-45.

[5] 杨震,赖英旭,段立娟,等.基于上下文重构的短文本情感极性判别研究[J].自动化学报,2012,38(1):55-67.

[6] 黄九鸣,吴泉源,刘春阳,等.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747.

[7] 刘勘,袁蕴英.基于自动编码器的短文本特征提取及聚类研究[J].北京大学学报(自然科学版),2015,51(2):282-288.

[8] 胡佳妮,郭军,邓伟洪,等.基于短文本的独立语义特征抽取算法[J].通信学报,2007,28(12):121-124.

[9] 马雯雯,邓一贵.新的短文本特征权重计算方法[J].计算机应用,2013,33(8):2280-2282,2292.

[10] 张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590.

[11] 吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127.

[12] 游彬,严岳松,孙英阁,等.基于HowNet的信息量计算语义相似度算法[J].计算机系统应用,2013,22(1):129-133.

[13] YOU Bin, LIU Xiao-ran, LI Ning, et al. Using Information Content to Evaluate Semantic Similarity on HowNet[C]//2012 International Conference on Computational Intelligence and Security(ICCIS 2012), Guangzhou China,2012:142-145.

[14] 吴克启,孙江磊,王忠思.基于本体的文本信息价值评估研究[J].舰船电子工程,2014,34(6):60-63.

[15] 王海,程立斌.层次分析法在军事情报质量评估中的应用[J].情报方法,2005,12:25-28.

[16] 余力,岳振军.军事情报价值评估方法[J].火力与指挥控制,2011,36(5):173-176.

[17] 刘姝丽,韩中庚,谷玉.军事情报信息价值的度量方法[J].军事运筹与系统工程,2006,20(4):52-56.

[18] 伍晓华,林春应.对军事情报价值度量的一种方法[J].情报方法,2006,2:65-68.

[19] N. Seco, T. Veale, J. Hayes. An intrinsic information content metric for semantic similarity in WordNet[C]//Proceedings of ECAI,2004:1089-1090.

中图分类号TP391.7

DOI:10.3969/j.issn.1672-9730.2016.01.030

作者简介:章宁,女,工程师,研究方向:通信与信息系统、信息安全。

*收稿日期:2015年7月3日,修回日期:2015年8月24日

猜你喜欢

社交网络
口碑信息传播对图书馆服务创新的启示
社交网络对大学英语教学的影响及应用
社交网络推荐系统
社交网络对大学生人际交往的影响及对策研究
基于五要素理论的视频自媒体盈利模式
大数据时代社交网络个人信息安全问题研究
社交网络中的隐私关注及隐私保护研究综述
社交网络自拍文化的心理解读