基于事件多要素模型的新闻主题句抽取
2017-06-26李中伟赖华周超
李中伟赖华周超
(1.昆明理工大学信息科学与自动化学院昆明650500)(2.昆明理工大学智能信息处理重点实验室昆明650500)
基于事件多要素模型的新闻主题句抽取
李中伟1赖华2周超3
(1.昆明理工大学信息科学与自动化学院昆明650500)(2.昆明理工大学智能信息处理重点实验室昆明650500)
新闻主题句抽取是对新闻文本进行语义分析的一种技术,其核心是将新闻文本中的句子作为语义分析的基本单元,识别出与新闻主题语义最相关的句子。针对Web新闻特征,提出了一种基于事件多要素模型的新闻主题句抽取方法。首先提取出了新闻报道的标题T、关键字K、描述D、首段F和子事件句S,然后用标题、关键字、描述和首段去表征一篇新闻文档,接着将子事件句和新闻文档以事件多要素模型的方式映射到向量空间中,最后利用向量之间的余弦相似度计算子事件句和新闻文档的相似度,并取相似度最高的为新闻主题句。实验结果表明,在社会政治和自然灾害两类的主题句抽取上,提出的方法优于基于LDA模型的主题句抽取方法和基于TFIDF的抽取方法,F值得到了明显的提升。
新闻事件;信息抽取;多要素模型;新闻主题句
Class NumberTP391.1
1 引言
新闻报道是对指定时间、特定地点发生事情的报道,新闻的主题句就是对新闻所报道的事件的全面的概括,表达了新闻报道的中心思想和基本观点,同时也是记者对客观事实的看法、态度和通过事实的报道所表达的主观意图。准确识别新闻主题句对开展新闻事件元素抽取[15]及新闻文本摘要[11]研究具有重要意义。
Web新闻页面中通常会包括很多的子事件,有的子事件是Web新闻的核心内容,有的子事件只是随便提及,这需要通过计算子事件和新闻文档的相似度来找出Web文档所真正描述的事件。一般新闻的子事件就是一个句子,同样新闻的主题事件是在新闻的子事件中选取出来的,它也是一个句子来表示。它是由中心词(或者说触发词)及其连接起来的有约束作用的主要组成部分(如参与者、时间、地点等)构成。
2 相关工作
新闻的主题句是对新闻所报道的事件的一个高度的概括,其在新闻的话题分析、文本自动摘要、信息检索、事件要素抽取等方面发挥了重要作用。因此,很多学者对新闻主题句的抽取做了大量的研究,包括张云涛的基于综合方法的文本主题句的自动抽取[1],根据概念间的关系,对同义概念进行语义归并,并对上下位概念进行语义聚焦,从而更精准地抽取出文本的主题概念;杨斐翡的英语语篇主题句探析[2],从英语修辞、英民族的文化思维模式以及英语系统功能语法观的角度分析了英语主题句;何维的基于句子关系图的网页文本主题句抽取[3],利用句子以及句子之间的关系构建图模型,将主题句的抽取化为了搜索图中边最多的点的问题;王伟的中文新闻关键事件的主题句识别[4],提出了利用新闻标题的提示性信息来抽取主题句;王力的一种基于LDA模型的主题句抽取方法[5],在基于Web的主题关键词查询扩展,获取候选主题句的基础上,利用LDA模型对主题句抽取。
然而新闻中的一些特征能准确形象地表征出新闻主题。所以,本文选取了最重要的标题,关键字、描述和首段这四类特征。并提出一种基于事件多要素模型的新闻主题句抽取方法,首先提取新闻文本中的四个特征要素,然后,将子事件句和新闻文档以事件多要素模型的方式映射到向量空间中,最后计算子事件句和新闻文档的向量余弦相似度,相似度最高的作为新闻主题句。
3 新闻主题句抽取
主题句是文本中覆盖内容最多的一个句子,并且这些句子最能代表新闻文本所要表达的意思。所以根据Web新闻文本的特点,本文提出了事件多要素模型的汉语新闻主题句抽取方法。
3.1 Web新闻特征分析
新闻报道是一种特殊的问题,是新闻事件的载体,为了吸引读者,在书写习惯上多采用倒叙的方式。因此,对新闻的结构进行分析,会发现新闻的标题和首段往往包含了事件的重要信息[6~12]。虽然新闻的标题只有简短的一句,但却是对新闻内容的浓缩和概括。总的来说,根据新闻标题的特点,使其能够精确地描述何时、何地、何人、发生了何事这几个方面的内容。加强对新闻报道的标题和首段的应用,可以提取出更多的关键事件信息。
在互联网上,新闻是以HTML页面的形式展现出来的。在HTML标签中包含了很多有价值的信息,有效的利用这些信息,能够提高新闻主题句识别的准确率。其中
3.2 事件多要素模型分析
事件多要素模型的新闻主题句识别涉及到的相关概念解释如下:
定义1(事件):事件是指在一定的时间和地点发生的、由若干对象参与的、含有若干动作特征的事情。对于事件的表示模型是多样的,本文根据新闻主题句识别关注的要素特点,将事件模型表示成四元组结构:e={t,l,o,a},t表示时间(何时),l表示地点(何地),o表示对象(人或者机构),a表示动作(动作)。
定义2(中心项):在本文的事件多要素模型中,动作要素由于能够表征待查询事件的类别,成为了中心项。同时,动作要素又可以称为事件触发词,是事件最为核心的要素。
定义3(约束项):在多要素中,时间、地点、对象等要素用来约束事件项的范围,称之为约束项。
基于事件多要素模型的新闻主题句识别定义为一个四元组:<D,S,F,R(di,s)>,D是Web新闻文档的集合,S是子事件的集合,F是子事件和Web文档的表示框架,R(di,s)表示子事件和Web文档的计算方法。
根据3.1节中的Web新闻的特征分析,选取的Web新闻特征主要包括标题T
事件多要素模型中的子事件s表示为:s={se,sc}。其中,se表示中心项,sc表示约束项。se={e1,e2…en},一般的子事件中都包含一个中心项,所以n=1;sc={t,l,o,e1,e2…en},约束项可以是t,l或者o,也可以是其他的事件项e。例如子事件s={“3月1日,昆明火车站发生暴力恐怖袭击事件”},sc={“3月1日”,“昆明”,“火车站”},se={“恐怖袭击”},其中,“3月1日”是时间约束项,“昆明”和“火车站”是地点约束项,“恐怖袭击”是中心项。
在文档表示模型中,向量空间表示模型应用的最为广泛和成熟,且在一些大型的系统中得到了验证。所以本文采用向量空间模型来表示文本,F为向量空间模型。因此R(di,s)就是基于向量空间模型的计算方法。
基于事件多要素模型的新闻主题句识别框架如图1所示。
图1 基于事件多要素模型的新闻主题句识别框架
3.3 新闻主题句抽取
假设子事件s的中心项为se={a2},约束项为sc={t,l,o,a1}。根据3.2节中的Web文档和子事件的表示方式F,可以得到文档的表示式(1)和子事件的表示式(2),如下所示:
其中,Web文档di={T,K,D,F}和子事件s={se,sc}的各个部分的权重取词的频度TF(term frequency)。但是在实际情况中,子事件中最重要的是中心项,因为中心项一般能够表示事件的类别。所以给中心项一个权重λ(λ>1);在新闻报道中,标题的特征词更为重要,所以给标题中出现的特征词一个权重系数∂(∂>1)。最后得到公式(1)的一个优化式(3)和式(2)的一个优化公式(4):
在Web新闻中,为了清楚地交代一件事情,往往在中心项的周围还会有一些其它的事件要素,比如时间、地点和人物等,它们与中心项的距离不同,对事件表述的重要程度也不同。相应的,在计算子事件和Web文档之间的相似度时的作用也不同。
下面以子事件为例,介绍计算约束项和中心项的距离的方法。将子事件分词后表征成s={se,sc}形式,其中se={a2},sc={t,l,o,a1}在子事件中出现的位置记为pos(t,s),pos(l,s),pos(o,s),pos(a1,s),pos(a2,s)。
t、l、o、a1与a2之间的距离记为
那么,S中t、l、o、a1与a2之间的距离和记为
例如子事件“3月3日朝鲜向朝鲜半岛东部海域发射数枚短程导弹”,中心项,约束项,则约束项和中心项的距离计算步骤如下所示:
1)对子事件用ICTCLAS进行分词得:F1=“3月/t 3日/t朝鲜/ns向/p朝鲜/ns半岛/n东部/ft海域/n发射/v数/m枚/q短程/b导弹/n”。
2)对分词后的句子进行简单的规则处理得:F2=“3月3日/t朝鲜/ns向/p朝鲜/ns半岛/n东部/ ft海域/n发射/v数/m枚/q短程/b导弹/n”。
3)统计事件约束项和中心项在子事件中的位置如下:
4)计算约束项与中心项之间的距离:
所以,dis(s)=7+4+4=15
若是同一个中心项出现在S中多次,则取其他要素与其距离的最小值。
子事件与文档之间的相似度计算采用经典的余弦向量度量法,同时考虑到对事件要素的距离与对相似度重要性的计算成反比,最后得到子事件与Web文档的相似度计算公式如式(7)所示:
dis(S)取对数的目的是为了减少距离对相似度平滑性的影响。
利用式(7)得到子事件和Web文档之间的相似度以后,找出与Web新闻文档相似度最高的子事件,该子事件就是该篇Web文档的主题事件。该主题事件所在的句子就是新闻的主题句。
4 实验结果与分析
4.1 实验数据集
在实验数据收集方面,选取了主流的180个中文门户网站和20个论坛,包括人民日报、新华社、省级核心媒体、门户网站、知名论坛等。
对爬取到的新闻页面进行预处理,首先提取出HTML页面中的标题T
本文从处理好的汉语新闻文本中,各随机选取了200篇社会政治和自然灾害类新闻文本作为实验数据,具体语料情况如表1所示。
表1 实验数据信息
4.2 试验方法及评价
系统性能的评测本文采用准确率(Precision)、召回率(Recall)和F三个指标来进行评价:
本文做了两组试验,实验一是本文方法与王力的一种基于LDA模型的主题句抽取方法进行对比,实验二是本文方法和基于TFIDF的方法的对比。
4.3 实验结果与分析
实验一:将本文提出的事件多要素模型的新闻主题句识别方法与王力的一种基于LDA模型的主题句抽取方法实验结果对比,对比试验结果如表2所示。表2显示了新闻主题句识别的准确率、召回率、F值。
表2 对比试验结果
通过实验的结果显示在社会政治和自然灾害两类的主题句抽取上,本文提出的方法要优于王力的一种基于LDA模型的主题句抽取方法。
实验二:将本文提出的事件多要素模型的新闻主题句识别与基于TFIDF的方法实验结果对比,对比试验结果如表3所示。表3显示了新闻主题句识别的准确率、召回率、F值。
表3 对比试验结果
通过实验的结果显示在社会政治和自然灾害两类的主题句抽取上,本文提出的方法要优于采用基于TFIDF的方法。
通过以上两组实验的对比结果来看,本文方法在P、R、F三个评价指标上均有了明显的提高。基于TFIDF方法抽取效果相比其他两种方法最差,其原因是未考虑非事件句造成效率下降,而基于LDA模型的事件主题句抽取方法效果好于TFIDF方法,主要是因为除考虑句子本身特征外,还采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。本文方法的抽取效果比基于LDA模型的事件主题句抽取方法仍有提高,主要原因是融入了事件要素作为特征。
5 结语
本文分析了Web新闻报道的HTML页面特点,提取出了标题、关键字、描述和首段等对表征新闻文档有重要作用的信息,并利用触发词信息得到新闻的子事件句;然后用标题、关键字、描述和首段去表征一篇新闻文档,接着将子事件句和新闻文档以事件多要素模型的方式映射到向量空间中,最后利用向量之间的余弦相似度计算子事件句和新闻文档的相似度,并取相似度最高的为新闻主题句。实验表明本文提出的基于事件多要素的汉语新闻主题句抽取方法优于LDA方法和基于TFIDF的方法。但是我们对新闻的文档的表示只考虑了标题,关键字、描述、首段这四个特征,更多更好的特征的挖掘是我们下一步需要研究的工作。
[1]张云涛,龚玲,王永成.基于综合方法的文本主题句的自动抽取[J].上海交通大学学报,2006,40(5):771-774.
ZHANG Yuntao,GONG Ling,WANG Yongcheng.Automatic extraction of text topic sentences based on comprehensive method[J].Journal of Shanghai Jiao Tong University,2006,40(5):771-774.
[2]杨斐翡,张祥和.英语语篇主题句探析[J].天津外国语学院学报,2001,8(3):8-11.
YANG Feifei,Zhang harmony.An analysis of the topic sentence in English discourse[J].Journal of Tianjin Foreign Studies University,2001,8(3):8-11.
[3]何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61.
HE Wei,WANG Yu.The topic sentence extraction of web pages based on sentence relation graph[J].modern library and information technology,2009(3):57-61.
[4]王伟,赵东岩,赵伟.中文新闻关键事件的主题句识别[J].北京大学学报(自然科学版),2011,47(5):789-795.
WANG Wei,ZHAO Dongyan,Zhao Wei.Key events of Chinese news topic sentence recognition[J].Journal of Peking University(NATURAL SCIENCE EDITION),2011,47(5):789-795.
[5]王力,李培峰,朱巧明.一种基于LDA模型的主题句抽取方法[J].计算机工程与应用,2013,49(2):160-164.
WANG Li,LI Peifeng,ZHU Qiaoming.A topic sentence extraction method based on LDA model[J].computer engineering and application,2013,49(2):160-164.
[6]Wang D,Liu Y.A pilot study of opinion summarization in conversations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Association for Computational Linguistics,2011:331-339.
[7]Mihalcea R,Tarau P.TextRank:Bringing order into texts[C].Association for Computational Linguistics,2004:1-9.
[8]Boudin F.A comparison of centrality measures for graph-based keyphrase extraction[C]//International Joint Conference on Natural Language Processing(IJCNLP). 2013:834-838.
[9]Bougouin A,Boudin F,Daille B.Topicrank:Graph-based topic ranking for keyphrase extraction[C]//International Joint Conference on Natural Language Processing(IJCNLP).2013:543-551.
[10]Zha H.Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence clustering[C]//Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2002:113-120.
[11]Ganesan K,Zhai C X,Han J.Opinosis:a graph-based approach to abstractive summarization of highly redundant opinions[C]//Proceedings of the 23rd international conference on computational linguistics.Association for Computational Linguistics,2010:340-348.
[12]Nishikawa H,Hasegawa T,Matsuo Y,et al.Opinion summarization with integer linear programming formulation for sentence extraction and ordering[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:910-918.
[13]【荷】托伊恩A.梵迪克《作为话语的新闻》[M].华夏出版社,2003.[Holland]Tuoyien A.van Dijk“news as discourse”[M].Huaxia Publishing House,2003.
[14]Wanxiang Che,Zhenghua Li,Ting Liu.LTP:A Chinese Language Technology Platform[C]//Proceedings of the Coling 2010:Demonstrations,Beijing,2010:13-16.
[15]Kim J D,Ohta T,Pyysalo S,et al.Overview of BioNLP'09 shared task on event extraction[C]//Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing:Shared Task.Association for Computational Linguistics,2009:1-9.
News Topic Sentence Extraction Based on Event Multi Factor Model
LI Zhongwei1LAI Hua2ZHOU Chao3
(1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming650500)(2.Key Laboratory of intelligent information processing,Kunming University of Science and Technology,Kunming650500)
Extraction of news topic sentence is a technique of semantic analysis for news text,which core is to make sentence in news text as a basic unit of semantic analysis,then sentences that most semantically related news topics can be identified.According to the characteristics of web news,a news topic sentence extraction method based on event multi factor model is proposed.Firstly,we extract the news title T,key K,description D,the first paragraph F and sub event sentence S.Then the title,keywords,description,and the first paragraph are used to describe a piece of news.After that,the sub event sentences and news documents are mapped to vector space by the multi factor model of the event.Finally,similarity between sub event sentences and news documents is calculated by cosine similarity,and the news topic sentence with highest similarity is adopted.Experimental results show that in the two types of social politics and natural disasters topic sentence extraction,the proposed method outperforms the extraction method based on LDA and TFIDF,in which the value of F has been significantly improved.
news event,information extraction,multi factor model,news topic sentence
TP391.1
10.3969/j.issn.1672-9722.2017.06.030
2016年12月7日,
2017年1月18日
李中伟,男,硕士研究生,研究方向:自然语言处理,信息检索。赖华,男,副教授,硕士生导师,研究方向:工业控制,自然语言处理。