基于本体的文本信息价值评估研究*
2014-11-28吴克启孙江磊王忠思
吴克启 孙江磊 王忠思
(1.海军蚌埠士官学校三系 蚌埠 233012)(2.海军蚌埠士官学校训练部 蚌埠 233012)
1 引言
随着网络的普及,互联网已成为重要的公开情报信息源。对于互联网信息处理系统,其抓取的信息的重要程度如何,是系统进行自动的信息取舍和数据过滤的判断条件,也是信息检索、舆情或情报人员进行人工分析的判断依据[1]。面对互联网上的海量信息,传统的互联网信息处理技术没有价值评估计算,其实质是分类和检索[2~3],即先将海量庞杂的信息分类、有序化,然后通过语义扩展后的关键词匹配检索出可能与主题有关的数据[4~6]。虽然分类和检索能通过计算机实现自动的管理,但是反馈给用户的仍然是原始的网页或是文本数据,实际上未经过对内容的分析,分析工作仍然是由用户完成。
传统的互联网信息处理技术不能实现计算机的自动分析处理的一个重要原因,就是未能从语义层次实现对抓取的信息进行文本价值的判断,从而无法利用抓取的信息来反馈新的抓取任务[7]。鉴于传统的数据挖掘辅助情报处理技术都缺乏文本信息价值评估的方法,论文对此进行了补充和深入的研究,并根据人工评估的原则设计了一种基于语义的评估方法。
2 情报质量评估的一般方法
在情报质量评估方面,美国匹兹堡大学教授T.L.Saaty曾于上世纪提出层次分析法(Ana1ytic Hierarchy Process,AHP)[8]。这种方法具有一定局限。实际军事情报工作与军事情报在作战指挥中的运用需要专业人员的参与。如果所选的要素不合理,其含义混淆不清,或要素间的关系不正确,都会降低AHP法的结果质量,甚至导致AHP法决策失败[9]。
对于传统的军事情报,还有一些对情报价值进行量化和度量的计算公式,如日本学者比野省三认为,情报的价值可以描述为[10]
其中,E表示情报的价值,是个无量纲的数值;Pi是使用情报时发生的概率;Qi是不使用情报时发生的概率;Ji是使用情报时的收益或效果;Hi是不使用情报时的收益或效果。
式(1)因为两个主要原因而无法较好地应用于军事领域:1)这是一个“事后”公式,因此指挥员在决策前,无法确定Pi和Qi;2)战争是对抗性的活动过程,具备极大的不确定性。因此,文献[10]使用情报的平均信息量来度量情报价值,并且对于第二条相似的情报,应考虑其验证价值,所以一条情报的价值应为自身信息量与之前所有相似情报信息量的差值:
并且,考虑情报的验证价值后,即使后到的情报与之前的非常相似,使得ΔHn≈0,仍不能否定其价值,而应该认为它的价值更多的体现在对前面已经拥有的情报的验证上。因此,情报的价值等于自身信息价值与验证价值的和:
式(5)中的Yn为第n条信息的验证价值。图2显示了对同一事件(目标)先后产生的情报,其所起到的验证作用是不一样的。
图1中,验证指数指的是情报得到验证的程度,代表指挥员对情报的信心,即情报的主观可信度。从图1中可以看出,随着情报数量的不断增加,情报的验证指数也在不断上升,但上升的趋势逐渐变缓,最终接近但无法达到100%。
图1 情报的验证曲线
传统的情报价值评估模型都是针对辅助指挥员作战决策的战场情报,对于实现计算机自动处理互联网信息已经不再适用。考虑到信息与目标的相关程度和与已掌握情报的相似程度是反映信息价值的两大因素。论文采取了一种信息度量方法—基于本体的信息量价值评估算法。
3 基于本体的信息价值评估算法
基于本体的信息价值评估算法认为存放情报素材的本地数据库是一个封闭的知识库,抓取的文本的情报价值如何,主要取决于其与本地数据库中内容的相似程度与相关程度,它与数据库中的内容越相近,情报价值越低,反之则很有可能是新的情报。
定义1 数据库记录:设情报数据库为集合D={I1,I2,…,In},其中Ii表示第i条记录,Ii也是一个集合,Ii={{NE1,NE2,…,NEm},{N1,N2,…,Nn},{V1,V2,…,Vk}},即命名实体、名词和动词的集合。
定义2 最短路径:设X、Y是本体结构的任意两个结点,Min(X,Y)表示从X到Y的最短路径长度,当X、Y 不连通时,Min(X,Y)的值为∞。
定义3 相关度:在某一本体中,任意两个概念间的相关度计算公式如式(6)[11]:
式(6)是关联挖掘领域的通用公式,其中ω是一个可以调节的参数,即相关度为0.5时概念间的最短路径,论文的实验取ω=2。对于命名实体间的相关度Rel(Ix,Ii)的计算方法,可以用如图2所示的本体结构说明。
图2 一个关于飞机的本体
在图2中,根据式(6)计算出的飞机与其他词语间的相关度见表1。
表1 本体概念间的相关度
从表1中可以看出,飞机与747、波音、FA728间的相关度为0是不合理的,这是由于构建的本体没有描述它们之间的关系,但是若这些命名实体出现在同一文本中时,根据论文提出的价值评估算法(定义5),这种关系将作为新的情报被更新至本体库,那么更新后的相关度计算值也将更新为0.8。
定义4 综合关系:概念相似度表示两词语间的语义相似程度。目前关于相似度计算的研究较多,论文采用的是文献[5]改进的Philip Resnik算法[6]:
根据Resnik的思想,两概念间的语义相似度等于它们间共有的信息含量,即最详尽的共同抽象(Most Specific Common Abstraction,MSCA)父概念的信息量。式(7)中,S(c1,c2)表示包含子节点c1和c2的概念集。
为了评估待判断信息Ix与本地情报数据库中记录Ii的相关程度和相似程度,即综合关系,需对Ix中的重要权重词语进行计算。对于从Ix中提取的命名实体,其与数据库中的记录Ii中各命名实体间的最大相关度为Rel(Ix,Ii);对于从Ix中提取的重要词语(名词或动词),其与数据库中的记录Ii中各词语间的最大相似度为Sim(Ix,Ii),那么综合关系Sim_Rel(Ix,Ii)与 Sim(Ix,Ii)和 Rel(Ix,Ii)满足:
若从Ix中提取的命名实体或重要词语有多个,则分别计算后取算术平均值作为Rel(Ix,Ii)或Sim(Ix,Ii)。如果相似度与相关度均在[0,1]之间取值,且D表示本地情报数据库的集合,那么Sim_Rel(Ix,Ii)的取值满足:
定义5 信息价值:待判断的信息Ix的信息价值V满足:
4 基于本体的信息价值评估算法实验
在某一时间段,实验尝试尽量多地从国外著名社交网Twitter上抓取与关键词“Obama”有关的推文(微博)[12]然后通过论文的价值评估方法,计算出抓取的推文的信息价值,用以引导进一步的信息抓取,抓取与计算界面如图3和图4所示。抓取的推文的统计情况如表2所示。
图3 抓取的Twitter信息数据库界面
图4 计算抓取的文本价值界面
表2 推文综合关系的统计结果
这是对抓取的600条推文的综合关系统计结果,综合关系小于0.5的248条推文是情报主题数据库中没有记录的关于“Obama”的情报(论文没有考虑情报的真实性辨别问题),大于或等于0.5的265条推文是与情报主题数据库中语义相近的情报。
将综合关系小于0.5的248条推文的命名实体加入情报课题数据库的关键词表,再抓取300条推文,计算出综合关系的统计结果如表3所示。
表3 更新情报课题数据库的关键词后的统计结果
更新情报课题数据库后的统计结果显示,将抓取的推文经过分析处理并反馈至情报课题后,再次引导Twitter爬虫抓取到的新内容减少,而与本地推文记录相似的内容则有大幅度增加的趋势,这是因为每次抓取都会将新的内容更新至情报课题数据库,随着本地数据库对目标掌握的情报越来越多,之后抓取的信息多半是已有记录的重复。传统方法由于无法评估为有价值的信息,因此无法抓取这部分内容。
5 结语
为了解决抓取的文本的价值评估问题,实现计算机的自动取舍与统计分析,提出了基于本体的信息价值评估算法,该方法同时考虑了待判断信息的情报价值和验证价值以及包含的语义信息,通过对文本的信息价值计算,能够自动评估该信息的情报价值或是验证价值的大小,是下一步实现计算机自动进行分析处理、构建情报网络的基础。
[1]王国顺,孙四明,张峰.基于本体的个性化信息检索技术研究[J].计算机仿真,2013,30(7):421-423.
[2]徐建民,朱松,陈富节.术语相似度和术语相关度在检索模型中的融合研究[J].计算机应用,2007,27(12):3013-3015.
[3]刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-12.
[4]姚佳岷,杨思春.改进的本体概念相似度计算模型[J].计算机应用,2013,33(6):1579-1585.
[5]YOU Bin,LIU Xiaoran,LI Ning,et al.Using information content to evaluate semantic similarity on How-Net[C]//2012International Conference on Computational Intelligence and Security(ICCIS 2012),Guangzhou China,2012:142-145.
[6]P.RESNIK.Information content to evaluate semantic similarity in a taxonomy[C]//Proceedings of IJCAI,1995:448-453.
[7]林丽,薛方,任仲晟.一种改进的基于《知网》的词语相似度计算方法[J].计算机应用,2009,29(1):217-220.
[8]习守成,庞聪,金开.基于AHP的对空警戒雷达作战效能分析[J].电子对抗,2013(3):7-9.
[9]余力,岳振军.军事情报价值评估方法[J].火力与指挥控制,2011,36(5):173-176.
[10]刘姝丽,韩中庚,谷玉.军事情报信息价值的度量方法[J].军事运筹与系统工程,2006,20(4):52-56.
[11]甘健侯,姜跃,夏幼明.本体方法及其应用[M].北京:科学出版社,2011:5-21.
[12]游彬,刘晓然,李宁,等.社交网络Twitter的推文抽取技术研究[J].舰船电子工程,2012,32(9):113-115.