一种分层机制的网络新闻话题融合方法
2015-08-08赵旭剑涂勇李波张晖杨春明王耀彬
赵旭剑 涂勇 李波 张晖 杨春明 王耀彬
摘要:传统的新闻话题融合方法往往将话题表示为一个统一的一层模型进行聚类融合,对于具有多层结构的网络新闻存在模型缺陷,容易忽略子话题的细节特征,影响新闻话题的融合结果。针对该问题,本文提出一种基于分层机制的网络新闻话题融合方法,研究话题的多层表示模型,实现对网络新闻话题的自动聚类。实验表明,本文方法较传统方法具有更高的准确率,能有效识别网络新闻在子话题上的特征差异。
关键词:多层表示模型;分层机制;新闻话题;话题融合;话题聚类
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)15-0212-03
Abstract: Traditional methods for news topic fusion are used to represent the news topic with a uniform one-level model to carry out clustering. With regard to the network news with multi-level topics, the model defects of traditional methods easily result in overlooking the detailed features of the sub-topic and affecting the fusion results. Aiming at this issue, this paper proposes a hierarchical topic fusion method, and discusses the multi-level topic model as well as the implementation of topic clustering for network news. Experiments show that this method has a higher precision than traditional methods and can effectively identifies the differences in the characteristics of the sub topics of network news.
Key words: multi-level representation model; hierarchical method; news topic; topic fusion; topic cluster
1 引言
随着网络技术的不断发展,互联网已经成为一种新的新闻媒体传播媒介。相比其它新闻类别,网络新闻具有更新速度快,信息量大,交互性强等优点。因此以新闻网页为对象的数据挖掘技术成为近年来工业界和学术界共同的研究热点。网络上的新闻大多分布比较杂乱,寻找准确的新闻内容显得十分困难。因此,一种高效、准确的新闻话题自动聚类融合方法是很必要的。然而,传统的方法只是将话题表示为一个统一的单层模型,利用特征融合等方法进行聚类。传统方法比较简单便捷,只是对新闻整体进行了简单地聚类融合,没有考虑话题的层级结构,容易忽略子话题的细节特征,影响话题融合的准确性,造成话题融合结果的偏斜。因此,需要一种新的新闻话题聚类融合方法,对新闻正文实现基于分层机制的融合,提高新闻聚类的准确度。
目前对新闻话题的分层机制研究主要采用两种策略:基于关键词的方法和基于时间信息的方法。张阔等[1]采用基于关键词的策略,提出以词元单位为基础的话题内事件检测方法,以事件的形式体现子话题。仲兆满等[2]则考虑了文本中的时间信息特征,通过获取新闻报道的发布时间对新闻进行排序,进而对相同时间段内的新闻进行话题聚类,实现话题分层。文献[3]对搜索引擎返回的话题相关文档进行子话题划分,结合了两种子话题聚类方法。基于关键词的划分方法中,首先计算关键词的权重,然后根据关键词进行分类,但是并没有分析子话题的内容特征。在基于时间信息的划分方法中,简单地将同一时间点的子话题片段进行合并,并没有考虑同一时间点可能出现多个子话题的情况。基于话题层级的话题聚类对于话题演化研究具有重要意义,其中,Makkonen[4]提出在话题演化挖掘过程中通过分析名词实体来测量话题之间的相似度,文献[5][6]则讨论了对于不同话题层级结构的新闻文档进行话题演化追踪的相关工作。而洪宇等[7]将新闻报道划分为不同的层级结构,根据相关子话题的比例和分布建立新话题的检测模型,实现对新事件的识别。与已有工作相比,本文的主要贡献在于:
(1)提出了面向不同新闻结构类型的网络新闻话题层级关系构建方法,有效识别话题的层级关系,对普通网络新闻具有较强的普适性。
(2)提出了基于分层机制的网络新闻话题聚类算法,根据话题层级关系结合时间信息,实现子话题的同级聚类,有效提高话题融合算法的准确性。
2 新闻话题层级关系构建
总的来说,网络新闻根据报道格式可以分为两类:含有子标题的显式层级新闻和不含有子标题的隐式层级新闻。针对显式层级新闻,新闻正文中的标题与子标题体现了新闻话题的层级关系,如图1所示,方框中的加粗文字作为新闻的子标题表达了整篇新闻局部篇章的内容,因此,我们可以直接利用这些子标题作为话题层级结构的子话题进行子话题的融合。
对于隐式层级新闻,我们通过提取段落的关键词构建TextTiling模型[8]来建立层次结构。TextTiling方法主要应用于新闻报道中文章段落划分。Hearst[8]的研究表明,在一篇新闻报道中,通常是相邻的若干句子表达同一个子主题,这些表达同一子主题的句子中相邻两句的相似度都比较高,而子话题有转折的两个相邻句子的相似度相对会有大幅度下降,TextTiling方法将表达同一个子话题的句子划分为同一段落。这种方法具有普遍的适用性,其关键在于爬取新闻网页的时候新闻的段落层次能够区分出来进行数据处理。
此外,针对每一篇新闻文档,我们还将其标题抽取出来作为一个单独的话题层次,因为新闻的标题是整篇新闻的核心总结,通常我们可以通过新闻标题了解到新闻将要讲述些什么。因此,新闻的标题作为一个单独的话题层次是可行的,对于后期的实验结果评测也是一个可参考的参照指标。
3 基于层级关系的话题融合
根据新闻文档的话题层级关系,进行同级子话题的话题聚类,保留了子话题中表达内容的差异性,能有效提高新闻话题融合的准确性。因此,我们将通过建立话题融合模型,采用自下而上(子话题级别到话题级别)的聚类模式实现网络新闻话题的融合。
3.1 话题融合模型
传统的话题融合方法只是将话题表示为一个统一的单层模型,利用特征融合等方法进行聚类(如图2所示)。这种方法使得许多细节性的问题被大而化之,或者丢失了子话题的差异性,对于话题关系复杂的网络新闻不具适用性。
而话题的层级表示模型是把整篇网络新闻(包括新闻的标题和正文)看成一个整体,通过构建话题层级关系建立一个自下而上的多层结构。基于层级模型的话题融合能够很好地体现网络新闻的层级特征(子话题特征),通过进行子话题的相似度计算比较,可以判断新闻文档的相似度。这样的网络新闻话题融合方式可以极大程度地避免新闻子话题内容差异大却被聚类融合的情况。基于层级关系的话题融合模型如图3所示。
3.2 话题融合方法
新闻文档进行融合过程中需要首先构建特征模型,本文我们采用向量空间模型(Vector Space Model, VSM)来表示新闻文档。向量空间模型把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。
网络新闻话题的层级融合指的是对网络新闻构建层次结构的子话题,通过子话题之间的融合结果判断整个新闻是否可以进行融合。层次结构的子话题融合对每一层的子话题都要做相似度的计算,然后对每一层子话题的相似度数据值进行处理,根据处理后的结果来判断新闻是否可以进行话题的融合。
基于话题层级关系的话题融合方法主要分为四个阶段:
第一阶段:根据新闻话题的结构特征,抽取各个层级话题的话题时间[5],计算两篇新闻文档各个层级话题的时间相似度TR,当TR大于设定的时间相似判定阈值,则TR为true,否则为false;
第二阶段:基于话题内容计算新闻文档子话题相似度SR,设定话题相似判定阈值,当有过半的子话题相似度大于阈值则令SR为true,否则为false;
第三阶段:计算子话题融合参数[α]=TR∩SR,如果[α]为true,则判定两个子话题相关,可以归并为一个话题;
第四阶段:对总的新闻文本相似度设定一个阈值,利用每层子话题的相似度数据值进行计算,利用简单的算术平均求得在整个文档级的话题相似度,判断该数值与阈值的大小,最终判定两篇新闻文档是否可以归并为一个话题。
在具体的算法中,获取每层子话题相似度数值是通过遍历子话题进行相似度比较的方式。正是由于层次结构的子话题融合方法在数据处理方式上具有多样性和丰富性的优势,所以层级模式的话题融合相对于传统的话题融合方式更能体现话题层级关系以及不同层级话题中的差异性。
4 实验结果与分析
为了评测本文算法的有效性,我们利用新浪、网易的同一个专题的新闻来进行层级模式话题融合算法的实验分析。本文主要收集了2013年的H7N9禽流感事件,2013年4.20四川雅安芦山7.0级地震,2013年河南义昌大桥坍塌事故以及2010年河南平煤集团平禹四矿矿难事故四个专题新闻进行实验评测,具体数据见表1。
参考文献:
[1] 张阔,李涓子,吴刚,等.基于关键词元的话题内容事件检测[J].计算机研究与发展,2009,46(2):245-252.
[2] 仲兆满,朱平,李存华,等.一种基于局部分析面向事件的查询扩展方法[J].情报学报,2012,31(2):151-159.
[3] 王巍.基于关键词和时间点的网络话题演化分析[D].上海:复旦大学,2009.
[4] Makkonen J. Investigations on event evolution in TDT[C]//Proceedings of the Student Workshop of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,Edmonton,Canada,2003.Stroudsburg,PA,USA:Association for Computational Linguistics,2003:43-48.
[5] 赵旭剑,金培权,岳丽华.TTP:一个面向中文新闻网页的主题时间解析器[J].小型微型计算机系统,2013,34(5):1042-1049.
[6] 赵旭剑,杨春明,李波,张晖,金培权,岳丽华,戴文锴. 一种基于特征演变的新闻话题演化挖掘方法[J]. 计算机学报,2014,04:819-832.
[7] 洪宇,张宇,范基礼,等.基于子话题分治匹配的新事件检测[J].计算机学报,2008,31(4):687-695.
[8] Hearst M A. Multi-paragraph Segmentation of Expository Text[C]//Proceedings of the 32nd Meeting of the Association for Computational Linguistics. 1994.