网络新闻话题语义信息提取
2015-07-24赵旭剑等
赵旭剑等
摘要:新闻话题抽取对于话题模型构建以及新闻话题挖掘具有重要的研究意义和应用价值。传统的方法仅仅通过提取关键词包来表示话题,缺乏完整的话题语义信息描述。针对该问题,本文从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话题语义信息。实验结果表明,本文算法能有效提取新闻话题要素,抽取结果具有一定的语义表达能力。
关键词:话题语义信息; 话题抽取; 事件要素; Text Rank
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)14-0176-03
Abstract:News topic extraction is of great significance and value for topic model construction and news topic discovery. The traditional methods only extract the key words to express the topic and lack the complete topic semantic information description. Aiming at this issue, this paper starts study in the view of the event elements, and builds the topic semantic model, so as to extracts the topic semantic information by using shallow syntax features. The experiment results show that the proposed method can extract the news topic information effectively and the output has certain semantic expression ability.
Key words:topic semantic information; topic extraction; event elements; Text Rank
随着网络的高速发展,不仅网民呈现爆炸式增长,而且导致信息量也大幅度的增长,这为我们带来了很多好处,在搜集信息的时候我们能够很快地找到大量的相关信息,但是同时也带来了很大的麻烦,那就是信息量过大,我们怎么样才能够快速找到对我们有价值的信息成为当前计算机领域的热点问题。显然,通过对信息进行语义化的重组和表达,形成便于人们理解的语义信息将是解决这一难题的关键技术。网络新闻作为互联网数据的重要组成部分,越来越体现出对于社会大众的影响力,日益赶超传统媒体新闻,成为人们获取社会资讯的主要方式。面对大量的新闻事件,如何快速有效的从中获取有价值的语义信息,意义重大,也逐渐成为Web数据挖掘的研究热点。已有的研究方法[1,2]仅通过提取关键词来表示话题,缺乏对话题语义的分析以及事件要素的提取,以关键词包构成的新闻话题挖掘结果大大影响用户对新闻事件的理解。针对该问题,本文提出一种针对网络新闻的话题语义信息抽取方法,从话题事件要素入手,建立话题语义模型,利用浅层语法特征抽取话题语义信息。实验结果表明,本文算法能有效提取新闻话题要素,抽取结果具有一定的话题语义表达能力。
1 话题语义模型
几乎所有致力于新闻学研究或者新闻报道写作的人们都沿用了Mott[3]提出的新闻5Ws(Who、What、When、Where、Why)要素学说作为新闻结构的基本准则从不同角度挖掘新闻话题的具体含义。中文网络新闻作为新闻题材的一个分支,其结构也应满足5Ws准则。这样的五元素结构可以完整地表示新闻话题而不受限于新闻格式或者语言,日益成为当前主流的新闻表示结构。基于对600篇中文新闻网页的分析统计,我们发现分别有98%、100%、72.67%、84.83%和37.33%的新闻包含Who、What、Where、When和Why元素,Who、What、Where和When四个元素相对Why具有更大的比重。同时,我们注意到新闻用户使用新闻搜索引擎时,查询的关键词也主要来源于Who、What、Where和When四类元素,说明这四类元素在话题表达上更具有代表性。
同时,针对新闻标题,我们进行了中文分词和词性标注,得到如表1所示的统计结果。从表格数据不难发现新闻核心四元素主要集中来源于五类词语,即名词、动词、非谓语形容词、时态词以及数词。因此,对于标注后的结果我们只需要关注以上五类词语,在细化抽取对象的同时排除助词、连词等噪声词语对于话题抽取的干扰。
2 话题信息提取
根据第二节中关于话题模型的讨论,本文对网络新闻进行中文词性标注和命名实体识别,选取具有话题语义特征的关键词作为话题模型元素,同时采用Text Rank模型[4]计算话题特征权重,根据阈值设置提取关键词构成新闻话题语义信息。
2.1 词性标注与命名实体识别
中文分词是将汉字序列切分成词序列,对于输入句子的词序列,模型给句子中的每个词标注一个词性标记。因为在汉语中,词是承载语义的最基本的单元,分词成了是包括信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。词性标注是给句子中每个词一个词性类别的任务。这里的词性类别可能是名词、动词、形容词或其他。针对本文的话题模型,我们主要选择五类词语,即名词、动词、非谓语形容词、时态词以及数词。命名实体(Named Entity,NE)[5]是文本中基本的信息单位,是文本中的固有名称、缩写及其他唯一标志,是正确理解文本的基础。狭义地讲,可以把命名实体分为人名、地名、组织名等。广义地讲,命名实体还可以包括时间表达式,数值表达式等,在各种应用领域,还可以根据具体的需要定义其他类型的命名实体,例如,在某个具体应用中,可能需要把住址、电子信箱、电话号码、会议名称等作为命名实体。简单来说实体识别即识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。与词性标注相同,我们通过命名实体识别筛选具有话题语义特征的关键词。
2.2 话题语义特征抽取
新闻报道的核心思想(话题)是由文中的词项来体现。通过词语间的语义关系分析,找出最能代表该新闻核心内容的特征词项。为了弥补传统方法(TF-IDF模型)只计算文中词语词频而没有考虑词项之间语义关系的不足,本文通过构建词项间的Text Rank模型[4],分析多文档间词项的语义关系,抽取出有效关键词。
Text Rank与Google提出的Page Rank非常类似,它本质是在以词汇作为顶点、词之间关联作为带权或无权,有向或无向边的图上进行random walk的过程[6]。Text Rank模型表示为一个带权有向图G=(V,E),由点集合V和边集合E组成,E是V×V的子集,图中两点i,j之间的权重为Wji。对于一个给定的点Vi,In(Vi)为指向该点的点集合,Out(Vi)为点Vi指向的点集合。点Vi的分数定义为:
[WS(Vi)=(1-d)+d*Vj∈In(Vi)wjiVk∈Out(Vj)wjkWS(Vj)]
其中,d为阻尼因数,取值范围为0到1,代表从图中某一特定点指向其他任一点的概率。在使用Text Rank算法计算图中点的分数时,需要给图中的点指定任意的初值并递归计算知道某个词语分数收敛,收敛后每个点都获得一个分数,代表该点在图中的重要性。需要注意,点的最后分数不受给定初值的影响,点的初值只影响该算法达到收敛的迭代次数。根据基于图排序算法的基本理论,可以在具有语义关系的词语之间连线构建Text Rank模型。根据词语之间的相互“投票”,递归计算词语分数,选择分数较大的词语为重要词语,其中不和任何词语有连线的词语为孤立点。
构建Text Rank模型是根据待选关键词词语之间的语义相似关系大小来决定是否在两个词语之间建立边。因此,Text Rank图是带权无向图,边的权重为两个词语之间的关联度,通过词语间的投票递归计算出权重,关键词的选取按分数序列从高到低选择,选取范围可以根据需要设置。
3 实验结果与分析
为了评测本文算法的有效性,我们利用从网易爬取的500篇新闻进行话题语义信息抽取算法的实验分析。对抽取结果本文结合搜狗地图,以可视化的方式进行展示,为用户带来一种全新的新闻浏览体验。
3.1 话题语义信息抽取结果
因为一个新闻事件中可能存在多个人名、地名、名词和动词,如何确定将那些人名、地名、名词和动词作为一个事件的事件要素,这就需要对事件要素进行权重计算,利用Text Rank算法算出众多事件要素的权重,进行筛选,得出最核心的事件要素作为一个新闻话题的关键词。实验中将得到的关键词如图1所示。
3.2 抽取结果可视化展示
我们调用搜狗地图,对事件地点进行定位,通过比较事件要素的权重大小可以获得事件地点,然后添加事件描述(即新闻事件的标题,时间以及抽取下来的其他话题要素),对事件进行可视化展示。如图2所示,在图中我们可以清晰地看到有三个地方做了位置标记(金昌市、白银市、太原),这三个地方分别是从三个话题中抽取出来的话题地点,而每个话题中可能有多个地点,但是它们的权重都是不同的,所以通过比较权重很容易确定时间的发生地点。其他的话题要素也是通过比较它们的权重得出的。
如图2所示,当鼠标点击地理位置时,就会出现关于该地方最近发生的新闻事件内容摘要,该内容摘要正是新闻话题语义信息提取结果整理后的文字表达。
参考文献:
[1] 罗凌, 陈毅东, 曹茂元. 微博观点句识别的话题影响研究[J]. 电脑知识与技术,2014,01:123-127.
[2] 谈成访, 汪材印. 基于LDA模型的新闻话题分类研究[J]. 电脑知识与技术,2014(16):3795-3797.
[3] Mott F L. Trends in Newspaper Content[J]. Annals of the American Academy of Political and Social Science, 1942, 219: 60-65.
[4] 陈宏,陈伟. 基于突发特征分析的事件检测[J]. 计算机应用研究, 2011, 28(1): 117-120.
[5] 向晓雯. 基于条件随机场的中文命名实体识别[D]. 厦门大学, 2006.
[6] Pearson, K. The Problem of the Random Walk[J]. Nature. 1905, 72:294.