基于线索特征的Web信息时效性评价方法
2018-12-14杨小平
徐 静,杨小平
(1.中华女子学院 计算机系,北京 100101; 2.中国人民大学 信息学院,北京 100872)(*通信作者电子邮箱xujingtyt@126.com)
0 引言
网络的快速发展使得Web成为人们获取信息的重要来源。面对日益增长的网页数量,人们已不再满足于从Web上获取大量相关信息,而是希望能得到高质量、高可用性的Web信息。由于Web的开放性,使得Web信息本身具有海量、数据多来源、主题动态变化等特征,而这些特征引起的数据时效性问题是当前大数据时代下Web信息质量管理所关注的重要内容之一。
Web信息时效性是指Web站点发布的信息在某一特定时间内具有的价值和效应,它包含两个方面的内容:一是Web信息发布的及时性,及时性是指从事实发生到实时信息发布的时间距离,通常情况下,时间距离越短,说明Web信息更新越及时;二是指Web信息所描述的客观事实内容的新鲜性,内容新鲜性是指能够为人们提供新的信息或信息发展的新情况。在信息时代的背景下,Web站点发布的大量信息是否能够反映当前关注的热点,是否能够及时发布事件的最新进展情况,对Web站点的可用性有重大影响。
1 相关工作
在大数据时代下,数据质量问题受到极大关注,而数据质量的各个维度中,时效性问题是影响数据可用性的重要因素之一。时效性差的数据会对企业决策和人们的日常生活产生许多不利影响,这使得判定数据的时效性成为必要。
当前的时效性判定研究大致分为两类:一是基于时间戳的时效性判定[1-2],这类方法要求每个待判定的值都具备完整可用的时间戳,但在实际的应用数据库中,往往会缺失一些有效、精确的时间戳; 二是基于规则的时效性判定[3-4],这类方法借助由领域知识得到的规则判断同一实体的不同属性值的时序关系,从而判定数据的时效性,这种方法无法判定某个值在给定的时间点是否失效。由此看来,当前数据质量领域对于时效性的判定研究已经有一些不同角度的较为成型的理论和方法,但受到Web信息这种半结构化数据的制约,当前的方法还不能完全应用于Web信息的时效性判定。
目前,针对Web信息时效性的相关工作都集中在对Web上的新闻发布时间的抽取研究[5-6]:文献[7]通过从新闻搜索引擎返回的每个新闻片段中自动抽取其发布时间,以帮助判别两个新闻内容是否指的是同一个事件;文献[8]为了准确提取互联网上信息报道的最早发布时间,提出链接分析法和多拷贝联合推断法以提高计算精度;文献[9]针对网页更新时间不稳定以至于较难预测新闻报道的更新时间的问题,提出了一个综合预测方法,即结合指数平滑法和朴素贝叶斯模型对新闻的更新时间进行预测。上述方法都侧重于信息报道的最早发布或更新时间的抽取,这种评价方法过于单一且不够充分衡量信息的时效性。由于对Web信息内容中的事件属性特征提取及事件发展演化研究得不充分,使得目前还没有研究从语义内容上去考虑报道所描述的客观事实的发生时间的时效性。
本文在利用条件随机场(Conditional Random Field, CRF)模型识别主题线索句的基础上,以时间词为线索特征,从大量主题线索句集合中提取隐含的多条线索,并得到与Web信息相关的同一主题的线索发展趋势[10]。利用线索发展趋势推断的主题线索时间区间能够估计该Web信息的有效区间,将每个时间与相应的线索关联起来,形成一个有逻辑关系的时间-线索片段。在此基础上,结合Web信息的发布时间、核心事件发生时间,对其内容时效性进行自动化评价。
2 Web信息时效性评价模型
Web信息时效性评价模型需要经过文本内容预处理、时间-线索集提取、时效性区间计算和内容时效性评估几个步骤完成。图1给出了内容时效性评估方法的具体流程。
图1 Web信息时效性评估框架
2.1 文本内容预处理
首先对从网络上抽取到的新闻页面进行预处理,主要包括新闻标题、正文内容的提取,并对正文内容进行中文分词、词性标注、句子切分等。
对于一个新闻专题,该专题有一组相关新闻文章,将一篇网络新闻的正文看成是一篇文档,可以表示成一个观测到的句子序列S=(s1,s2,…,si,…,sm),m为句子的个数,将观测序列中的相关特征(包括文本基本特征、词典特征和语义特征)加入到CRF模型中,产生可识别主题线索句的标注序列。
2.2 时间-线索集提取
利用条件随机场(CRF)模型识别出每篇新闻文章的主题线索句,在此基础上提取与主题相关的时间-线索集合。线索中最重要的部分是时间。主题线索句中的实词(可称为线索关键词)在语义上也可表示线索与新闻主题的相关度, 因此,一条线索可以用与线索相关的时间和关键词来表示。
考虑到主题相关的网络新闻可能会被抽取出相似的主题线索句,进而形成冗余的线索, 因此,要将时间上一致、语义上相近的线索进行分析及合并处理。对于任意两条线索,当Δt=ti-ti-1≤(tn-t1)/n时,采用欧氏距离对线索间的相似度进行计算:
(1)
其中:ti为线索OCi对应的时间,即该线索的发生时间,当任意两条线索的时间间隔小于平均时间间隔时,对这两条线索间的语义相似度进行计算;cωij表示线索OCi中的实词wj的权重值。当dist(OCi,OCj)小于阈值α时,认为两条线索OCi和OCj是相似的,可以对这两条线索进行合并处理。
对于构建好的时间-线索集按照时间先后进行排序,并根据时间顺序得到了该新闻的线索发展脉络。为了更好地表征每条线索与主题的相关程度,利用线索的发生时间和其强度来表示主题线索的发展趋势,线索的强度由每一条线索上所包含的关键词权重平均值以及该线索来源的文本数量决定。线索OCi的强度VCi的计算公式如下:
(2)
其中:k为线索语义合并后剩下的线索个数;di表示线索OCi的来源文本数量,即该线索是经过多少条候选线索合并而成的。
2.3 时效性区间计算
Web信息的时效性从两个方面进行评价:一是判断此Web信息的主题内容发生时间在有效区间的相对位置; 二是判断此Web信息的发布时间距离有效区间的时间长度。信息具有时效性的时间区间,称为有效区间。一般地,处在该区间的Web信息内容是较新颖的。
利用与Web信息主题相关的线索发展脉络可以获得整个主题的线索时间区间{ct1,ct2,…,ctn},由此可知主题线索的最早发生时间为ct1,主题线索的最终结束时间为ctn,图2给出了主题线索的时间轴。
图2 主题线索时间轴
根据内容时效性的评价准则,将Web信息时效性评估结果分为以下3种情况:
1)发布不及时且内容新鲜度不好,即该Web信息的有效区间(et1,etm)处于主题线索时间轴的初始位置,说明Web信息描述的客观事实是不新鲜的;而且发布时间pt和有效区间的距离较远,说明Web信息发布不及时。这种情况属于图2中的情况1。
2)发布及时但内容新鲜度不好,即该Web信息的有效区间(et1,etm)处于主题线索时间轴的初始或中间位置,说明Web信息描述的客观事实是不新鲜的;但是发布时间pt和有效区间的距离较近,说明Web信息发布及时。这种情况属于图2中的情况2。
3)发布及时且内容较新鲜的,即该Web信息的有效区间(et1,etm)处于主题线索时间轴的靠后或结束位置,说明Web信息描述的客观事实是较新鲜的;而且发布时间pt和有效区间的距离较近,说明Web信息发布及时。这种情况属于图2中的情况3。
通过借助区间估计理论,在主题线索时间轴上确定Web信息的有效区间。根据线索时间区间{ct1,ct2,…,ctn},确定θ1=θ1(ct1,ct2,…,ctn),θ2=θ2(ct1,ct2,…,ctn),其中θ1<θ2,[θ1,θ2]为Web信息有效区间。设θ是Web信息主题线索中的一个中心线索时间,若存在[θ1,θ2],对于给定的0<α<1,若满足P{θ1≤θ≤θ2}=1-α,称[θ1,θ2]是θ的置信度为1-α的有效区间,θ1和θ2分别为有效区间的时间下限和时间上限,1-α为置信度。一般地,认为Web信息的中心线索必然落在主题线索时间区间内,因此给定置信度1-α=0.95。
(3)
则:
1-α
(4)
2.4 内容时效性评价
借助2.3节的方法,可以得到与Web信息同一主题的整个线索发展情况,因此就可获得整个主题的线索时间区间{ct1,ct2,…,ctn},而Web信息的有效区间必定是被包含在这个时间区间中的。对于Web信息的时效性,可以从两个方面进行衡量:一是Web信息发布的及时性,判断此Web信息的发布时间距离有效区间的时间长度,一般情况下,这个时间距离越短,说明Web信息更新越及时;二是Web信息内容的新鲜性,判断此Web信息的中心线索在主题线索时间区间中的相对位置。
为了获得Web信息的中心线索,通过计算Web信息有效区间中的每一条线索与主题线索发展趋势中每条线索的语义距离。在计算语义距离的过程中,选取文本相似度和时间差两个维度计算语义距离。一般来说,选取语义上与Web信息比较相关,时间差也较小的主题线索。采用欧几里得距离函数来计算线索间的语义距离CD:
(5)
其中:Δs=(1-s)表示Web信息线索间的差距,s为线索之间的相似度,Δt2表示时间差值,ω表示权重系数。可以看出CD越小,线索之间的语义距离越小,线索之间的关联程度也就越大。
将关联程度最大的线索作为Web信息的中心线索,从Web信息有效区间中找到中心线索及其对应的时间,并利用式(6)对Web信息时效性参考值进行计算:
(6)
其中:ctn表示线索时间区间的结束时间,ct1表示线索时间区间的开始时间;eti表示中心线索的发生时间,etm表示Web信息有效区间的结束时间,pt表示Web信息的发布时间。
通过上述方法对Web信息内容时效性进行量化,并根据量化后的参考值给Web信息内容时效性进行评价:
1)当0.8≤V(t)≤1,认为Web信息时效性良好,不仅描述的客观事实内容较新鲜,发布也很及时。
2)当0.5≤V(t)<0.8,认为Web信息时效性中等,虽然描述的客观事实内容新鲜度不好,但能够发布及时。
3)当0≤V(t)<0.5,认为Web信息时效性较差,不仅描述的客观事实内容不新鲜,且发布也不及时。
3 实验结果分析
Web信息内容时效性评估方法以构建自动生成Web信息有效区间为核心,利用线索发展趋势推断的主题线索时间区间估计该Web信息的有效区间,结合Web信息的发布时间和核心事件发生时间对其内容时效性进行定量分析。依据提出的Web信息时效性等级划分规则,对所有正确提取文本内容的Web信息进行分级,最后获得总体评价效果。
为了验证本文算法的有效性,从新浪新闻、网易新闻、新华报业网、广西新闻网和首都之窗5个网站随机抽取了共10 889个网页作为实验语料,进行Web信息内容时效性验证。
3.1 线索识别相关实验
由于人工标注的局限性,仅对新浪新闻、网易新闻中的专题新闻“人民币汇率持续贬值”“乌克兰局势动荡”“四川雅安7.0级地震”“叙利亚局势持续动荡”以及首都之窗“2018高考”共5个主题2 720篇新闻进行主题线索句识别的实验验证。实验前先手工标注出这些新闻的主题线索句,且实验中假设这些标注全部为正确标注。将所有语料分为两部分,其中2 040篇作为训练语料,其余680篇作为测试数据集合。在数据预处理部分对文本分词、词性标注等使用了中国科学院的分词工具ICTCLAS,并运用 CRF++v0.53进行主题线索句的识别。
对于识别性能进行评测时,采用准确率(P)、召回率(R)、综合指标F1值(F1)三个指标来进行评价。在训练CRF模型进行主题线索句识别时,选用了多个特征组合的复合特征模板。为了验证CRF模型识别主题线索句的有效性,以文献[11]为baseline,baseline的方法是结合中文新闻句子的词频、长度、位置以及与标题的相似度等特征计算句子的重要性,并进一步提取出新闻的主题句。表1给出了本文方法和文献[11]方法的对比情况。
表1 两种方法在不同主题语料下的实验结果对比
3.2 时效性评价实验
为了获取内容新鲜度和发布及时性两个指标对于Web信息时效性评价的影响大小,对影响因子α和β的值作了不同的设置并进行实验验证。由于之前没有其他工作给出针对Web信息时效性评价的算法,所以本节实验中对筛选出的时效性较差的网页进行人工对比验证。表2是当内容新鲜度和发布及时性的影响因子在不同设置下的对比结果,采用准确率(P)、召回率(R)、综合指标F1值(F1)三个指标来进行评价。
表2 不同影响因子时实验结果对比
通过上述实验,可以认为内容新鲜度和发布及时性对于Web信息时效性评估具有同样重要的作用,因此在后面实验中设定α=β=0.5。
对新浪新闻、网易新闻、新华报业网、广西新闻网和首都之窗5个网站随机抽取的网页进行内容时效性验证,评估结果如表3所示。
表3 网站时效性评估结果
根据实验结果得到的时效性良好(指位于0.8~1.0区间)的Web信息所占的数量比对评价量化值进行等级划分,见表4。
表4 内容时效性评价等级划分
从实验结果可以看出这5个网站中有9 583个网页新闻的内容时效性良好,占正确评估新闻总数的87%, 这是因为实验选择的大部分新闻是来自专业的新闻发布网站和知名门户网站,这些网站的新闻发布和更新都比较及时,能够准确地反映当前社会关注热点和事件的最新发展情况。而时效性为0的新闻网页有379个,占总数的3.5%,这是由于选取了首都之窗网站中教育培训栏目下的321条新闻作为部分语料,而该栏目下的很多新闻都是未及时更新的,有些甚至是5年前的新闻,故时效性很差,导致时效性为0的网页所占的总体比例稍大。总体来说,得到的评估结果符合先前估计和实际的情况,基本能够正确反映网页新闻及其发布网站的时效性状况。
从评估结果来看,专业新闻网站如新华报业,新闻信息的时效性最好,网站发布的新闻基本为当前关注的热点。主流的门户网站如新浪网和网易提供的新闻时效性良好,绝大多数网页都有很好的时效性,能够为用户提供热点新闻和有效信息。中小型新闻网站如广西新闻网则有让人满意的时效性,这类网站可以为用户提供时事热点新闻,但又存在着一些没有及时更新的新闻,在一定程度上影响了网站的整体时效性等级,进而影响其Web可用性。政府类网站如首都之窗,则时效性较差,网站上存在的过时信息很多,同时还有很多无效链接; 这些问题严重影响了Web可用性,导致用户使用电子政务网站的意愿不强。
4 结语
本文针对Web站点发布的信息时效性进行研究,提出了一种基于线索特征的Web信息时效性评价方法,解决了目前无法从语义上去判断Web上发布的信息报道的时效性问题。实验结果表明该方法能对Web信息内容的时效特征进行评估,能够有效评价Web信息的价值,为提高Web可用性作出相应指导。但是仍有需要进一步研究的地方,包括:1)在利用CRF模型识别主题线索句时,要扩大训练语料库的规模,并进一步完善语义特征,以改进模型的效率,提高识别的准确率;2)在语料选取上考虑收集多来源即多个网站上的Web信息,使时效性评价方法研究更加完善。