APP下载

面向网络文本的信息可信度评估方法研究

2013-04-29李璐旸李渝勤刘挺秦兵王轩

智能计算机与应用 2013年5期

李璐旸 李渝勤 刘挺 秦兵 王轩

摘要:随着网络信息的膨胀性增长,不可信的信息在网络中日益增多,阻碍误导用户对可信信息的获取。研究网络文本的可信度评估方法,对句子级命题提取多维网络分布特征,通过线性组合计算可信度值,从而判断命题的可信度。在可信度评估过程中,文中方法通过词语结构特征提取可信信息的候选信息,并在候选信息的可信度计算中加入对信息源的可信度分析判断,提高了信息可信度的评估准确度。

关键词:信息可信度; 替换项; 候选答案; 可信度计算

中图分类号:TP391 [KG*2]文献标识码:A[KG*2][HT5”H]文章编号:2095-2163(2013)05-0031-05

0引言

网络信息不断膨胀。伴随而来的问题是信息质量的参差不齐,不实信息(如虚假信息、过时信息)极易误导用户的判断。如何判断信息的可信度,帮助用户从海量信息中甄别出可信的信息,成为了当今社会迫切需要研究解决的问题。

信息可信度,是指对于信息本身以及信息源的可信任程度[1]。人们是依赖众多客观因素、基于经验对信息的可信度做出逻辑判断。上述判断具体包括:对于信息质量和精确度的客观判断,以及对于信息来源的可信赖性、信息专业权威性和信息吸引力的主观感受[2]。本文结合人脑对信息可信度的逻辑判断机理、针对网络信息质量所呈现的规律特点研究信息可信度的评估方法。

目前,网络信息的质量主要表现为以下规律:

(1)关于一个主题,不同信息源提供正确信息的内容往往一致或近似;若提供的是有误信息,则有误之处各不相同。

(2)可信的信息源提供的信息多数是正确的,反之不尽然,正确信息的来源的可信度可能良莠不齐。

由此,认为网络中信息的可信度主要可以通过两方面来评估:信息源的可信度、以及信息在网络的分布特点。

基于以上思想,本文设计了一个面向网络文本的信息可信度评估方法,借助两层特征空间来评估信息的可信度,并通过提取可信信息候选集,为用户提供高可信度的相关信息。其中,信息的第一层特征空间由信息源的特征构成,用于判断信息源的可信度;第二层特征空间由信息源可信度的分析结果以及信息在网络的分布统计特征构成,用于最终评估信息的可信度。

本文的主要研究内容和创新点包括以下三方面:

(1)在提取可信信息的候选信息阶段,通过词语结构过滤器来提取候选信息。提高了候选信息提取的准确度。

(2)在信息可信性度计算阶段,对信息的发出商业意图是否明显、更新信息是否及时、网站权威性等角度综合考量信息源的可信度,进而丰富了候选信息的特征空间。

(3)结合本文提出的评估方法,设计实现了基于中文搜索信息的信息可信度评估系统。系统在实验中获得89%的准确度。

1相关工作

关于网络信息的可信度评估方法研究,当前已有的研究成果可以根据研究对象的信息承载形式的不同分为三类,具体分析如下:

第一类是对网状结构的网络(如P2P网络、语义网或社交网络)所承载的信息的可信度评估方法研究。这一类研究主要探讨的是某个节点在整个网络中的可信度问题,以及如何自动辨别出哪些节点是不可信的,并将这些节点从网络中剔除出去。常用的方法是信任值的传播,这是针对网络结构设计的方法,信任网络常常得到使用。Kamvar提出了通过以往的表现(上传历史)来判断P2P网络中病毒来自哪一个匿名恶意的发送端[3]。Richardson在关于语义网的信任管理研究中提出,任何一个用户保留一个他所信任的用户集,利用信用网络传播信用值[4]。在社交网络中用N维矩阵记录信任和不信任信息,并通过网络任意两点间的信任信息矩阵计算传播信任度[5]。

第二类是对群体智慧网站(如网上论坛和合作知识库)所承载的信息的可信度评估方法研究。群体智慧网站的共同之处是用户贡献自己的信息到 Web上,集合了用户的群体意见和集体智慧,因此这方面的相关工作都是利用用户的评论、打分来判断信息的可信度。Deborah通过分析修改历史来获得对修改版本的信任度[6]。修改文章的可靠性取决于三点,分别是:之前版本的可靠性,最后一个版本的作者的信誉度及修改内容。在协作信息系统中,修改历史是可以广泛有效利用的重要特征。

第三类是对独立的网站或网页上信息的可信度评估方法研究。网站的建设者预计获知哪些特性,使其能够提升用户对网站的信任感,而哪些特性会削弱用户的信任感。而作为信息浏览者的用户,在浏览网页时则需要辨别网站或者网页的可信度,判断其提供的信息是否真实可信。Lee构造了一个真实可信事实库,并利用其来检测一个可疑信息的可靠性[7]。Kawai开发了一个可视化显示新闻地址趋势的消息系统,通过该系统可以判断相应新闻网站的可信度[8]。

Kyoto大学的WISDOM系统(http://wisdom-nict.jp/)是一个供用户在线使用的网络信息可信度分析系统[9],该系统从信息发送者、主要观点、对立观点等角度出发,通过聚类为用户判断信息的可信度提供参考。Honto Search是一个Web问答系统[10],针对用户输入的命题返回可信度值及其它相关可信命题。该系统基于这样一个假设:事实的流行度越高越可信。但是这个假设仍然值得商榷。

2.1可信信息候选集的提取

本文研究的出发点是能够根据用户给出的疑惑命题,通过对网络中出现的大量相关信息进行可信度评估,为用户提供可信度最高的命题信息。其中,可信信息的候选集的获取是可信度评估的第一步重要工作。

研究认为用户输入的疑惑命题由“确定项”和“疑惑项”构成。“疑惑项”是用户对整个命题的质疑部分,需要系统进行可信度评估的核心部分。如图2所示,用户输入疑惑命题“世界上最长的河流是尼罗河”,并指出了疑惑项“尼罗河”,则对应确定项是“世界上最长的河流是”。可信信息候选集,由疑惑项的候选替换项构成(如“亚马逊河”、“黄河”等)。

获取可信信息候选集的基本步骤:

(1)根据用户输入的疑惑命题的确定项,利用搜索引擎搜索相关的网页信息。

(2)抽取前100条搜索结果的页面摘要信息(即snippet)。

(3)根据疑惑项的词性、命名实体特征,在100条页面摘要信息中抽取特征一致的词条作为疑惑项的候选替换项。

(4)经过词条过滤,将最终出现频度最高的5个词条构成可信信息的候选集。

需要说明的是,认为搜索引擎返回的页面摘要信息能够正确反映原文的相关内容,这也是进行实验的一个前提。

命题疑惑项与其疑惑项的各个候选项往往具有相同的词性特征及命名实体特征。本系统采用哈工大社会计算与信息检索研究中心语言技术平台(LTP)的分词、词性标注及命名实体识别模块。通过文本处理,提取出页面摘要中与质疑项的词性特征和命名实体特征相同的词组,并去除噪音。在对其频度进行统计后,将频度最高的五项作为可信信息的候选集。

2.2信息可信度的评估

本文从信息源可信度与信息在网络的分布特点两方面综合评估信息的可信度。信息可信度评估流程如图3所示。评估方法设计中,主要需要考虑两方面:特征选择和可信度评测方法。

第一层特征空间是信息源特征空间SF(Source Feature)。综合考虑所有对网络信息可信度有影响的因素,可以将其大致划分为两部分:显性因素和隐性因素。显性因素包括页面信息本身显性呈现的各种特征。比如,网页创建时间、广告量、网页设计,拼写错误等等。隐性因素包括隐藏在网页信息背后的各种特征。比如,信息作者权威度,反向链接数,信息来源等。本文采用网站及网页最具区分度的四个属性特征作为信息源的特征

Pagerank值用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度,通过Google提供的API获取。反向链接数是指该网站被其他网页或网站链接的数目,在一定程度上能够反映出该网站的受欢迎程度,也从一定程度反映了所提供信息的可信度。网页广告量能够反映网页创建的商用意图,因此也是评估网页信息可信度的一个因子。网页创建时间则反映了网页提供信息的时效性,时间越近的信息时效性越好。

第二层特征空间是可信信息候选集特征空间CF(Candidate Feature),其候选集合中某个词条的特征为:

覆盖率是在搜索引擎返回的页面摘要信息中包含该候选信息的比例。用total表示总的搜索返回结果数目,pi表示搜索到的所有网页,Contain(pi, aj)表示搜索到的网页内容pi中含有替换项aj,覆盖率的计算公式如下:

RC(αj)=∑[DD(]total[]i=0[DD)]Contain(pi,αj)/total[JY](1)

可信信息源数为包含某个可信信息候选信息的所有信息源经过第一阶段分类后,类别属于可信信息源的数目。可疑信息源数为第一阶段分类后属于可疑信息源的数目。网页平均创建时间是一个非常重要的特征,通过判断信息的网络出现时间,有助于甄别新旧信息。仅仅通过网络流行度(即覆盖率)来判断,不易甄别出真实信息。搜索返回结果中的平均网页排名说明了包含该候选信息的网页集合在百度搜索引擎中的平均排名,此特征说明了包含确定项和候选信息的组合的网页与确定项的相关程度。R(pi)表示网页pi在搜索引擎返回结果中的网页位置,故平均网页排名如下:

信息可信度的计算使用以下公式,其中λi值由实验确定。为了测试前面提出信息的各个特征对可信度计算的影响,对系数择取不同数值进行了测试,相应的系数是根据研究者自身经验和一些测试确定的。

确定特征权重的过程是根据经验和测试实验获得。信息的可信度最主要的影响因素是网络流行度,而替换项的第一个特征覆盖率在本文中近似代表网络流行度。所以覆盖率作为网络流行度的近似表示在可信度计算中的权重最大。可信信息源数的权重为正值,用以加强可信信息源对信息的有利支撑,而不可信信息源的权重为负值,则用以减弱不可信信息源在覆盖率特征里对可信度计算的影响。

平均网页时间和网页排名也影响着替换项的可信度,并且平均网页建立时间对可信度影响尤为显著。当一个替换项的平均网页创建时间特征值小于候选答案集里此特征的最大值时(即该信息不是最新的消息,候选答案里有比该信息时间更新的信息),可信度的值将因此降低。

3实验及分析

为了验证本文设计研究的相关方法的有效性,本节对相关算法进行了多个实验:

(1)可信信息候选集获取实验;

(2)信息源可信度分类实验;

(3)不同可信度评估方法对比实验。

几部分实验的实验数据及收集过程如下。在信息源可信度分类实验中用到的50个已知答案的命题来自人工收集验证。在另两个试验中使用的测试集是通过收集百度知道已经解决的问题作为已知答案的命题答案对(疑惑命题,正确答案)集合,共4类200条数据。其中人物类50条,地理类50条,历史类50条,时政类50条。

由于信息可信度评测技术研究还处于起步阶段。还没有一个公认的信息可信度测试集以及评估方法。候选信息的抽取评估方法采用改进的MRR(Mean Reciprocal Rank)标准评价抽取效果的准确度,n为所有测试命题的数量,γi为第i命题的第一个正确答案的位置,m值为可信信息候选集的大小。计算公式为:

3.1可信信息候选集获取实验

从表1的实验结果中可以发现,历史类和人物类的准确率最高,而时政类最低;按MRR标准评价,人物类的MRR值最高,而时政类最低。准确率方面,因为历史类测试数据主要关于历史事件的时间,即测试命题中的质疑项多数为时间,而时间的词性和命名实体特征非常明显,在搜索结果中易于辨别,所以准确率高。人物类多为人名词,性特征明显,一段搜索摘要中涉及到的人名有限,易于辨认抽取。而时政类的问题比较杂,而且涉及到的事件名不易辨别,在实验中通过词语结构过滤器提取的替换项就不够准确应对会出现最高频的几个替换项中没有正确答案的情况。

就MRR标准而言,测试的是系统得出的替换项集中正确答案的平均排序位置。由实验结果可以看出,人物类的MRR值最高,主要原因是事件中涉及到的人名往往不多,并且通过词语结构过滤器也易于辨别过滤;而时政类MRR值较低的原因主要来自词语结构过滤器未能将正确答案筛选出来。

3.2信息源可信度分类实验

本实验主要考察基于SVM的分类算法的性能。基于60个经过人工搜集、验证的命题( 包括50个正确命题和10个网络中高频的错误命题),在网络搜索到1 172个正例和102个反例,共1 272条数据。在实验的过程中,采用了LibSVM进行信息源的可信度分类。将采用SVM、Bayesian、KNN等算法进行了实验比较,实验结果如表2所示。

SVM的效果明显好于Bayesian和KNN,虽然训练语料相对比较少,但从实验效果可以看出SVM分类效果还是相当不错,进一步表明了支持向量机在解决小样本、非线性及高维模式识别问题中具有许多独特的优势,SVM不仅对两分类问题具有良好的分类效果,在多分类问题上也表现良好,是目前文本分类效果最好的单分类器之一。

3.3不同可信度评估方法对比实验

本实验的基准实验为日本京都大学的“Honto? Search”系统所采用的网络覆盖率来评估信息的可信度。实验通过准确度和MRR 值比较两种评估方法的优劣。实验结果如表3所示。

本系统通过加入信息源的可信度评价并结合其他统计特征,将准确度提高到89%。这说明本文的两层特征空间能够更好地为用户提供可信度高的答案。MRR值也略有提高,但不够理想,原因主要是实验过程仍然会受到噪音信息的影响,在候选信息的提取部分和可信度计算部分都需要进一步研究,提高最佳答案与非最佳答案的区分度。

4结束语

随着网络信息量的快速增长,不可信的信息也日益涌现,干扰误导用户对正确信息的获取。信息可信度的评估就是为了解决这一社会问题。本文提出了利用词语特征从网络提取过滤有用信息,将信息源的可信度评测加入到信息可信度评测中来,构造两层特征空间计算信息可信度,从候选答案的获取和可信度计算两方面提高了实验的准确度。