APP下载

基于事件—时间关联模型的话题跟踪研究

2016-03-02胡福玲吴国文赵臣升

智能计算机与应用 2016年1期
关键词:阈值权重向量

胡福玲 吴国文 赵臣升

摘 要:针对话题跟踪的任务是从时序新闻报道流中实时识别和挖掘相关于特定新闻话题的报道,本文提出一种事件-时间关联模型(Event-Time Relation Model,ETRM)用来展开话题跟踪研究。ETRM将相关报道的时间属性引入向量空间模型,话题跟踪过程中将话题与相关报道相同特征项的时间相关度应用于相关性判定机制,同时基于时间的分布属性调整特征向量的权重分配,实现话题模型的自适应学习更新。实验采用DET曲线评测系统性能,结果显示相比于传统的话题模型,ETRM能够更加准确的追踪到话题焦点演化趋势,有效提高了话题跟踪系统的性能。

关键字:话题跟踪;事件-时间关联模型;时间相关度;DET曲线

中图分类号: TP391.1 文献标识码: A 文章编号:2095-2163(2016)01-

Abstract:This paper proposes an Event-Time relation model (abbr.ETRM) to study topic tracking for its task that is to identify and mining subsequent on-topic stories in the temporal story stream. The ETRM introduces the time property of the story to the vector space model, apply time correlations of same feature to the correlation decision mechanism in topic tracking process, adjusting feature vector weight allocation based on time property to implement subject model of adaptive learning at the same time. Experiment adopts DET curve performance evaluation system, the results show that ETRM can more accurately track the topic focus of evolution trend compared with the traditional model of subject, effectively improve the performance of topic tracking system.

Keywords: topic track; event-time relation model; time correlation; DET curve

0 引 言

话题检测与跟踪[1] (Topic Detection and Tracking, TDT) 作为信息处理领域重要的研究分支正逐步成为国内新颖的研究热点之一,话题跟踪 (Topic Tracking, TT) 是其中的一个子任务。话题定义为由一个种子事件以及后续相关事件或活动组成[2],而事件定义为在特定时间特定地点发生的事情[3],可见时间是辅助话题模型区分不同的新闻事件的重要属性。一般来说,话题的种子事件发生的时间总是最早,并长期驻留于相关话题的报道流中,而话题的新颖事件往往发生的时间较晚,并且论述新颖事件的报道会在短时间内爆发式地出现。所以时间也是反映话题发展趋势的主要脉络[4]。

针对上述新闻事件报道的时间特性,本文提出一种事件-时间关联模型(ETRM),即在传统的向量空间模型 (Vector Space Model, VSM) 的基础上引入相关事件报道的时间属性对话题进行描述,并基于ETRM对话题跟踪过程中的相关算法提出以下改进:

(1)将相同特征项之间的时间相关度应用于报道与话题的相关性判定中,借以提高判定精度;

(2)在对话题模型中相关报道的特征项进行自学习更新时,基于其时间分布属性进行相应权重调整,借以及时准确地追踪到话题的焦点。实验采用检测错误权衡 (Detection Error Tradeoff, DET) 曲线[5]分别对基于VSM和基于ETRM两种跟踪系统性能进行评测,结果显示后者有效提高了话题跟踪演化趋势的性能。

1 相关工作

1.1 传统的文本表示模型

对新闻信息进行文本预处理时,需要将其转化为计算机可以识别的形式[6]。传统的话题跟踪系统中,通常应用向量空间模型 (Vector Space Model, VSM)[7] 来对话题和报道进行描述。VSM将文本表示成一个空间向量,向量的每一维代表该文本的一个特征,并且每一维的取值(即权重),对应于该特征对相应文本的重要性。形如公式(1):

(1)

其中, 为特征词, 为 对应的权重, , 为特征向量的维数。该模型要求各个特征项互异且无先后顺序关系[8],后续可以通过计算特征向量之间的相似性来度量文本间的相似性。

VSM把对文本内容的处理简化为向量空间中的向量运算,以空间上的相似度表达语义上的相似度。该模型直观易懂,计算高效且操作灵活,目前广泛应用于文本过滤和关键字检索等信息处理领域。

1.2 文本特征选择及其权重计算

将新闻报道用空间向量模型表示后,特征向量可能成百上千甚至更多,需要从中选出最具有代表性的特征项来进行后续研究。

TF-IDF加权策略[9]是一种常用的特征权重计算方法,其特点是特征项的重要性随着自身在文档中出现的频数成正比增加,却也会随着自身在相关文档集中出现的频率成反比下降。新闻话题是动态地不断向前发展的,在不同时段报道事件的内容可能不同,比如当突发的新颖事件报道大量出现时,一些高频出现的特征词能更好的代表目前阶段话题的核心,此时反文档频率IDF将会降低高频词汇的影响力。所以在本文的特征权重计算中只考虑TF因子。具体地,在一篇新闻报道中,位于标题、首段、末尾的特征词一般更能表述此篇文档的主要内容,因此通过修正因子 对相关位置上的特征词赋予较高的权重,具体的权重计算如公式(2)所示。

4 实验分析

4.1 实验数据集

为了更好地体现实验语料的权威性和实时性,本文实验用语料采用搜狗实验室提供的采集自全网2012年6月~2012年7月期间多个频道的新闻数据。该数据集共含有16080篇文档,涉及16个话题,为了便于话题检测与跟踪结果测评,选择前面的3054篇作为训练集,后面13026篇作为测试集。

4.2实验设计

本文分别基于传统的向量空间模型和ETRM新模型,设计了两个话题跟踪系统,通过漏检率和误检率以及归一化开销来衡量话题与跟踪系统的性能。

4.2.1 设计实现一

系统采用传统的向量空间模型(VSM)对新闻话题和报道进行文本表示。首先,对新闻语料进行文本预处理、分词等操作,并通过公式(2)计算各特征词权重;然后,选取训练集中 篇相关报道中的特征词及其相应权重来构成初始话题模型;接着采用传统余弦公式(13)衡量新闻话题与报道之间相关度,如果相关度高于预设的阈值,则判定待测报道是相关于话题的,并实时更新话题模型的特征向量,否则判定为不相关;最后重复上一步骤来处理下一篇报道,直到所有新闻报道处理完为止。

4.2.2 设计实现二

系统对每个新闻话题和报道采用事件-时间模型(VSM)构建话题模型。同4.2.1一样首先对新闻语料进行文本预处理和分词等操作,用公式(2)计算各特征词权重,并提取每个特征词的时间信息;然后,采用 篇最早的相关报道作为训练语料,从中抽取特征词、特征词的相应权重和时间对来构成初始的话题模型,如式(8)和式(9);接着按照公式(13) 计算话题与后续报道的相似度,若相似度大于设定的阈值,则把相关报道加入到相关文档集中,并且把报道中新的特征词更新到话题模型,更新过程如3.2节所述;最后重复上一步骤来处理下一篇报道,直到所有新闻报道处理完为止。

4.3实验结果及分析

本实验通过漏检率( )、误检率( )和归一化开销 来衡量话题与跟踪系统的性能。虽然本文没有使用 TDT 会议提供的标准语料,但是通过自己从搜狗实验室获取的语料,同样可以使用这些指标来评测话题检测与跟踪系统算法的性能,验证本文提出的方法的有效性。

实验在0.12~0.5的范围内随机设置相似度阈值,观察不同阈值情况下基于两个不同模型的话题跟踪系统的漏检率和误检率以及归一损耗代价,如表1所示。

表1 不同阈值下两种模型的实验结果

Tab.1 Results of the two models under different thresholds

根据表1中不同阈值下的跟踪结果绘制DET曲线,如图1所示。DET曲线的横坐标表示误检率,纵坐标表示漏检率,曲线上的点代表相似度阈值不同时的漏检率和误检率。曲线越接近原点,系统性能越好。由此得出,基于ETRM构建话题模型的跟踪系统的误检率和漏检率都有所降低,其性能效果明显更好。

由图2可以看出,随着相似度阈值的增大,基于两种不同模型的跟踪系统的归一化损耗都是先减小后增大。究其原因,一方面是因为阈值较小时,容易引入误检的新闻报道,导致误检率PFA较高,使得 损耗也较高;另一方面是因为阈值较高时,漏检的新闻报道会逐渐增多,相应的漏检率也会升高,导致 损耗也随之增大。结合表1可以得知,当阈值为0.2时,两种算法的 值达到最低,当阈值范围在0.16~0.26之间时,系统的错误代价较低,则其性能将达到最优。具体地,当阈值 =0.2时,两种模型算法的实验结果对比如图3所示。

由图3结合表1可以得出,在基于VSM的话题跟踪系统中,最小的 值为0.13148,而在基于ETRM的话题跟踪系统中,最小的 值为0.0956,相比之下,后者大大降低了归一化错误代价,使得跟踪系统性能有了显著的提高。

5 结束语

本文提出一种事件-时间关联模型用于跟踪新闻话题演化过程。在传统向量空间模型中引入时间属性,基于相同特征项之间的时间相关度改进话题与报道相关性判定机制,并应用于话题模型特征词的更新过程中的权重调整。实验采用传统的基于VSM的话题模型与本文提出的新模型ETRM进行跟踪性能的对比,结果表明,后者在漏检率、误检率以及最小归一化损耗代价上均有所降低,使得跟踪系统的性能有了显著的提高。但本文仍有不足之处,如特征项的时间属性统一采用的是报道发布的时间,在某些情况下,报道事件不一定与事件发生时间一致。在今后的工作中还需要进一步改进。

参考文献:

[1] 骆卫华, 刘群, 程学旗. 话题检测与跟踪技术的发展与研究[A]. 孙茂松,陈群秀. 语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C]. 北京:清华大学出版社,2003:560-566.

[2]ALLAN J. Topic detection and tracking: Event-based Information Organization[M]. NewYork: Kluwer Academic Publishers,2002.

[3] YANG Y, CARBONELL JG , BROWN RD. Learning Approaches for Detecting and Tracking News Events[J]. 1999, 14(04):32-43.

[4] 仓玉, 洪宇, 姚建民, 朱巧明. 基于时序话题模型的新事件检测[J]. 智能计算机与应用, 2011,1(3):74-78.

[5]MARTIN A,DODDINGTON G,KAMMETAL T.TheDETCurveinassessmentofdetectiontaskperformance[C] //Proceedingsof the Fifth European Conference on Speech Comunication and Technology, EUROSPEECH 1997. Rhodes, Greece:ACM,1997:1895-1898.

[6] LAVRENKO V, ALLAN J, DEGUZMAN E, et al. Relevance Models for Topic Detection and Tracking[C] //Proceedings of HLT2002 on Human Language Technology Research. San Francisco:ACM, 2002:115-121.

[7] 宋丹, 卫东, 陈英. 基于改进向量空间模型的话题识别跟踪[J]. 计算机技术与发展, 2006, 9(16):62-67.

[8] 宗成庆.统计自然语言处理[M].清华大学出版社,2008:342-343.

[9]ALLAN J, LAVRENKO V, FREY D,et al. UMass at TDT 2000[C] // Proceedings of Topic Detection and Tracking Workshop. USA: National Institute of Standard and Technology, 2000:109-115.

[10] ALLAN J, CARBONELL J , DODDINGTON G, et al. Topic detection and tracking pilot study: Final report[C] //Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: DARPA, 1998: 194-218.

[11] 洪宇, 张宇,刘挺,等. 话题检测与跟踪的评测及研究综述[J] .中文信息学报, 2007, 21(6):71-87.

[12] MAKKONEN J, AHONEN-MYKA H, SALMENKIVI M. Simple semantics in topic detection and tracking[J] . Information Retrieval, 2004, 7(3-4):347-368.

猜你喜欢

阈值权重向量
向量的分解
非均匀光照下文本图像分割算法研究
特斯拉发布新功能 停电期间也可充电
权重涨个股跌 持有白马蓝筹
利用迭代软阈值方法抑制恒时演化类核磁共振实验中的采样截断伪峰
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
各省舆情热度榜
两种改进的局部阈值分割算法