APP下载

面向Web的故事脉络挖掘研究综述

2021-12-27赵旭剑王崇伟金培权杨春明

中文信息学报 2021年11期
关键词:脉络方法模型

赵旭剑,王崇伟,金培权,张 晖,杨春明,李 波

(1. 西南科技大学 计算机科学与技术学院,四川 绵阳 621010;2. 中国科学技术大学 计算机科学与技术学院,安徽 合肥 230026;3. 西南科技大学 理学院,四川 绵阳 621010)

0 引言

根据2021年2月第47次《中国互联网络发展状况统计报告》[1],我国网络新闻用户已达7.43亿,占全部网民的75.1%。由此可见,Web已成为互联网时代人们获取新闻事件的首要渠道。与此同时,由于Web信息的爆炸式增长以及极高的更新频率,人们每天都被新闻网站、微博、微信公众号等各路信息所包围,很难全面、准确、及时地了解某个新闻事件的故事脉络及演化过程。大部分用户获取的都是碎片化的新闻信息,难以把握和理解事件的整体发展过程。这已经成为Web时代信息获取的一个棘手问题。在此背景下,Makkonen[2]最早把故事脉络挖掘视为话题检测与追踪的子课题,用图结构表示故事脉络及其事件演化关系,后来Nallapati等[3]提出了事件线索(Event Threading)的概念,为后来研究者提出故事脉络挖掘的概念奠定了基础。故事脉络挖掘即通过分析新闻事件与后续关联事件间的关系,构建新闻事件故事脉络,并在此基础上进行事件演化分析,进而挖掘事件的演化阶段和演化模式。

通过故事脉络挖掘技术,可以从海量的碎片信息中获取结构清晰的新闻事件故事脉络,以及故事脉络中事件演化的生命周期和事件能量(热度)的变化过程,从而提高Web信息的应用价值。例如,当事件“长春长生疫苗事件”爆发,新闻用户的需求是直观的了解事件的来龙去脉,快速地获取事件的前因后果。而对舆情部门而言,则关注事件生命周期变化,希望通过事件演化热度分析,判断事件的传播动向和民众的舆论导向,对事件发展传播进行监管和决策。图1展示了新闻“长春长生疫苗事件”的故事脉络挖掘结果。图中故事以“前长春长生老员工实名举报长春长生公司”事件作为开端,标志故事萌芽;以“吉林长春长生公司问题疫苗案相关责任人被严肃处置”事件作为结束,标志故事消亡。故事萌芽之始,能量逐渐累积,说明此时公众关注度逐渐上升。发展阶段曝光新的事件,这时可能吸引新的热度,能量累积速度加快,因此图中可能出现拐点。当爆出“百白破疫苗为劣药并且已流向全国时”,公众的讨论热度到达极点。不难发现,事件的故事脉络轨迹体现了新闻事件的前因后果;同时,故事脉络挖掘结果所描述的事件演化过程往往与新闻事件的舆论效应密切相关,对决策者分析舆情态势、引导社会舆论、提高突发事件应急管理水平具有重要研究意义。

图1 故事脉络挖掘实例

故事脉络挖掘的系统性研究最早可追溯到2013年的TREC会议(Text REtrieval Conference)。TREC 2013会议首次举行了时间线摘要任务评测,要求参与者从Web新闻语料中抽取事件的时间线(Timeline),这是故事脉络挖掘的早期思路。随后,多个会议也举办了类似的评测工作,例如,TAC(Text Analysis Conference) 2014举行了事件追踪任务的评测,SemEval(International Workshop on Semantic Evaluation)在2015年举行了跨文档事件时间线排序的竞赛, ACL(Annual Meeting of the Association for Computational Linguistics)在2017年举办了第一届“新闻中的事件与故事”研讨会。然而,到目前为止,关于Web环境下的故事脉络挖掘研究工作相对零散,还缺乏系统性的梳理,对2013年以来该方向的研究进展及未来的研究方向尚没有可参考的综述工作。基于此背景,本文将系统整理近年来在面向Web的故事脉络挖掘方向上的主要工作,对相关的技术进行分类、对比和分析,以期为该方向的研究者提供一个可参考的较为系统的文献综述。

本文的主要贡献可总结为以下三点:

(1) 目前国内外还没有针对面向Web的故事脉络挖掘的系统性综述工作,本文首次系统地总结了该方向的研究任务、最新进展和未来研究方向。

(2) 针对故事脉络挖掘的两个核心任务: 故事脉络构建和事件演化分析,分别提出了一个问题驱动的研究分类框架。首先分析了每个方向存在的主要研究问题和挑战,然后总结了已有的研究工作与研究问题之间的对应关系。借助这一研究分类框架,研究者可以更清晰地了解故事脉络挖掘方向的最新研究工作。

(3) 基于自建数据集和公开数据集对目前主要的几种评测标准进行了实验结果理论分析,给出了准确率、召回率、F1值等多个指标上的对比结果。通过实验对比,验证了已有方法的效果,为后续研究提供参考。

本文的后续内容安排如下: 第1节概述了故事脉络挖掘的定义、任务以及流程。第2节详细介绍了目前故事脉络构建的典型方法,并分析了各方法的优劣。第3节对事件演化分析研究在演化周期和演化模式两个方面的研究进展进行综述。第4节对故事脉络挖掘工作中一些常用的数据集和评价方法进行了讨论。第5节讨论了故事脉络挖掘研究目前面临的挑战并对未来研究工作进行展望。第6节对全文进行了总结。

1 故事脉络挖掘概述

1.1 相关定义

故事脉络挖掘相关研究中,学术界暂无明确定义,国内研究人员一般使用“故事线”“事件脉络”“时间线摘要”以及“故事脉络”等描述事件随时间的演化,而英文文献中大多使用“Storyline”以及“Timeline Summarization”定义相关概念。本文对这些定义进行了归纳总结,并提出“故事分支”的概念以表示一个完整故事脉络中的子事件。

定义1事件(Event): 指在特定时间和地点发生的,有一个或多个对象参与,有一个或多个动作组成的事情[4];

定义2故事分支(Branch): 由多个相同主题的事件构成,用事件关系串联的一条事件时间轴;

定义3故事脉络(Storyline): 由一条或多条关联故事分支构成,表示事件演化关系的树状结构。

定义4事件演化(Event Evolution): 指事件类似哲学中事物发展的过程,存在类似萌芽、发展、顶峰、衰退和消亡的生命周期。

以“2016年美国总统选举”故事为例[5],故事以“特朗普成为总统候选人”事件为开端,不断演化发展,并催生“希拉里成为总统候选人”“第一次选举电视辩论”等后续事件,最终以“特朗普被选举为总统”标志事件消亡。事件及其故事脉络如图2所示,其中“事件3→事件4→事件5”表示故事脉络中的一条故事分支,类似的故事分支还有“事件6→事件7”等。

图2 “2016年美国总统大选”故事脉络

1.2 故事脉络挖掘任务

故事脉络挖掘研究主要包括两方面工作: 故事脉络构建与事件演化分析。

1.2.1 故事脉络构建

故事脉络构建是指根据事件主体是否存在相似关联以及根据事件之间的因果、顺承或时空等关系,构建一个表示事件间演化关系的逻辑顺序结构。早在2003年,Makkonen[2]就通过建模事件中人物、组织、时间、地点的相似性关系,用图结构表示故事脉络。Nallapati等[3]提出了故事脉络的早期概念,通过分析事件间的关系,把事件的演化关系用树形结构表示。Rehm等[6]为辅助相关工作者,实现了自动提取并生成故事脉络的原型系统。此外,李[7]对事件脉络构建的研究进展做了一部分总结。

1.2.2 事件演化分析事件演化分析

是指从故事脉络中发现事件的演化周期与演化模式,往往利用老化理论、产品生命周期模型、概率模型与生命周期理论等对事件演化建模,发现事件是如何随时间演化的。这种事件的演化阶段与哲学中事物的发展过程类似,存在一个类似萌芽、成长、顶峰、衰退和消亡等阶段的生命周期过程。新的新闻事件出现在故事脉络中,随着时间的推移又会逐渐消失[8],借此能够进行网络舆情监测并引导舆论方向。同时,随着研究的不断推进,研究人员逐渐把时间信息作为一个维度来探究时间与事件演变的问题[9-12]。有的研究人员利用社交媒体数据[13]或者新闻数据[14-15]作为时态信息来源对事件追踪,构建了一个类似于维基的页面结构来展示事件随时间的演变过程;也有的研究人员把社交网络数据与现实事件相关联,利用实时更新的社交媒体数据追踪事件演化[16-18]。此外,徐等[19]从演化阶段、演化模式及演化分析方法三个角度对突发事件的演化进行了总结概述。

1.3 故事脉络挖掘流程

目前,国内外相关研究把故事脉络挖掘的流程一般分为4个步骤,基本流程如图3所示。对于检测到的事件,首先分析事件间的关联性,然后对事件分组以构建故事分支,接着按照事件的时间顺序组装故事脉络,最后进行事件演化分析。

图3 故事脉络挖掘流程图

然而,仅有基于贝叶斯网络模型与基于聚类算法的故事脉络挖掘工作严格遵循了上述步骤。基于图的方法则在利用图优化算法对故事进行树生成的同时就完成了把事件分配到故事分支及故事脉络组装的过程。此外,由于基于时间关联性分析的方法所生成的故事脉络一般为单分支结构,因此该方法往往在经过事件关联性分析后即可组装故事脉络。而基于文本摘要的方法,其数据集一般是经过处理的较为“干净”的事件,仅仅需要使用摘要算法得到关键句子即可直接按事件顺序组装故事脉络。

2 故事脉络构建

互联网逐渐成为人们获取新闻资讯的重要途径。然而,由于互联网数据具有碎片化、无序化的特点,人们很难直接从互联网获取新闻事件发展的整个过程。对比目前互联网信息获取的点状方式,人们更加希望能直接获取新闻事件的故事脉络,而不是从一堆无序的数据中去理解事件的前因后果。人工编辑生成的故事脉络虽然比较准确,但是需要耗费大量的人力,因此利用机器算法自动构建故事脉络是故事脉络挖掘研究中的一个重要任务。总的来看,故事脉络构建研究需要解决以下四个方面的问题:

(1) 如何度量故事脉络中事件间的关联关系?事件间的关联关系往往由事件中词语的显式表达决定,但由于自然语言表达的多样性,同一事物在实际表述中可以具有不同的命名实体描述,这加大了评估事件关联性的难度。同时,词语间存在的复杂语义关系,例如概念间的上下位关系等,极大地影响事件关联关系度量结果的质量,对构建故事脉络带来挑战。

(2) 如何准确表示事件特征?传统方法通常以人物、时间、地点、行为等对象级特征,以及字、词、主题等语言学特征对事件表示建模,然而在故事脉络构建中需要准确识别事件所在的故事分支,传统的事件特征表示方法较难发现故事分支中具有时间演变性的多个事件与待识别事件之间的隐式特征关系。因此,如何准确表示事件特征成为故事脉络构建研究中亟待解决的问题之一。

(3) 如何建立面向Web的故事传播模型?构建故事分支需要挖掘同一主题下具有时间演变性的多个事件的演变过程,同时,生成故事脉络需要建立多个故事分支的演化关系。无论是具体的故事分支还是完整的故事脉络都体现了故事在网络中的传播过程,通过传统的主题演化挖掘方法虽然能建立事件与事件的演变关系,但对于生成各个故事分支在故事脉络上的传播过程却缺乏技术支持。因此,面向Web环境建立故事传播模型成为生成故事脉络需要解决的问题之一。

(4) 如何确保故事脉络信息的逻辑连贯性?故事脉络代表一个表示事件间演化关系的逻辑顺序结构,故事分支中的各个事件信息以及各个故事分支信息都应该具有合理的逻辑连贯性。然而,故事脉络中的事件往往由多篇网络新闻报道或者无数的社交网络信息组成。因此,从海量无序的Web数据中挖掘具有逻辑顺序的故事脉络信息成为故事脉络构建研究中需要克服的技术挑战。

本文围绕上述故事脉络构建研究需要解决的四个主要问题,对已有研究进行归纳和总结,将其分为四类(如表1所示),并在下面各节中对各类方法进行了讨论。

表1 问题与方法对应表

2.1 基于关联分析的故事脉络构建

基于关联分析的方法通过分析事件间的关联关系来链接事件,依赖于关联计算规则。根据不同故事脉络粒度,将基于关联分析的方法分为两大类: 基于相似度分析的方法和基于聚类的方法。其中,基于相似度分析的方法侧重分析同一故事中的事件,得到结构简单的单线索故事脉络;而基于聚类的方法则更加关注故事脉络中的故事分支,形成结构清晰的多线索故事脉络。

2.1.1 基于相似度分析的方法

基于相似度分析的故事脉络构建的基本步骤包括: (1)用相似度分析确定事件间是否存在联系;(2)根据时间特性链接事件得到故事脉络。已有研究中根据相似度计算方法的不同,故事脉络构建可分为以下四类。

(1) 互信息

自香农开辟信息论后,信息论在各个领域都发光发热,其中互信息常用于度量两个随机变量的相关性。张等[20]借鉴互信息的思想,使用模糊匹配策略对事件间命名实体特征的关联度进行计算,用事件中命名实体的共现关系衡量事件相关性。为解决事件共现依赖性相同时,事件演化方向难以确定的问题,Huang等[21]采用互信息衡量特征间的依赖关系,并考虑“某一事件较多提及另一事件关键词时,该事件对另一事件具有较强的事件引用”这一论断,通过共现相关性分析和事件引用分析计算事件关联,结合事件时间特性构建故事脉络。

(2) 余弦相似度

余弦相似度是使用最为广泛的计算文本相似度的方法,研究人员使用不同的方法将文本向量化以提升相似度计算性能。例如Wu等[22]利用TF-IDF提取的文档特征向量计算余弦相似度,把每个事件的时间戳设置为簇中心的时间,根据时间特性构建故事脉络。而Zhou等[23]提出基于词频-逆事件频率(TF×IEF)和时间距离成本因子的混合模型,基于TF×IEF把事件建模为向量,然后根据余弦相似度衡量事件内容的相似性、计算时间距离成本因子构建故事脉络。

(3) 多种相似度组合

为了更好地衡量事件间的联系,也有研究人员综合多种相似度来共同衡量文档关系。例如,Nomoto[24]采用两层相似模型确定新闻故事是否连接。模型第一层确定文档级别的相似度,模型第二层用伪相关反馈将事件转移到事件集,确定相关的原始故事,最后取两层相似度的线性组合确定事件相似度。Lu等[25]把事件特征描述为时间、地点、参与者、描述和相关帖子,用相关帖子、位置和参与对象三者相似度的线性组合值构建故事脉络。Guo等[26]认为事件相似度由图像上下文和文本上下文共同衡量,相关事件可能具有相似的图像上下文以及共同的用户评论转发,由此使用尺度不变特征转换计算图像相似度,另外把TF-IDF作为用户权重,利用共同用户的转发评论衡量事件相似度,最后根据时间线索将故事脉络可视化。

(4) 伪相关反馈

除了上述研究方法外,还有研究人员利用伪相关反馈检索方法在社交媒体上生成故事脉络,并用检索结果的关联性衡量事件的相似度,Alonso等[27]根据数据的时间粒度计算频繁主题标签的上下文,然后在给定主题标签的文档集中执行初始检索,从而在推文中提取排名靠前的链接集,最后通过链接查询结果得到故事脉络。

综上所述,以上四类方法,其理论计算模型均存在一定程度区别,表2总结了不同的相似度分析方法的细节。

表2 相似度分析方法总结

2.1.2 基于聚类的方法

聚类算法将不同的事件聚类成不同的簇,形成故事分支,主要包含以下三个步骤:

(1) 对给定事件集合,检测事件与故事脉络中故事分支的关联性;

(2) 若关联性大于设定的阈值,即该事件与故事分支讨论的事情相同,用不同的事件操作将事件融入故事分支;

(3) 若没有相关联的故事分支,创建新的故事分支并加入故事脉络中。

研究人员通过一些事件操作实现事件与故事脉络的融合,图4展示了Liu等[5]提出的事件操作,针对新的事件通过合并、扩展、插入三种事件操作实现对故事脉络的增量更新。类似地,Qiu等[29]提出事件操作并根据事件的时间戳逐级构建故事脉络,Cai等[30]用创建、吸收、拆分、合并四种事件操作来捕获随时间变化的事件演化模式。李等[31]借鉴增量聚类思想提出增量式子主题动态演化分析模型,将新的文档聚类到相应故事分支中得到故事脉络。Laban等[32]对新闻文章提取关键词,用关键词把文章聚类到具有不同主题的簇中,然后通过链接、拆分、合并三种操作生成故事脉络。为减小时间复杂度,Lee等[33]把事件限制在滑动时间窗口内对故事脉络更新。付等[34]从词覆盖的角度提出新闻脉络构建方法,用逻辑连贯性指标在时序图中找到最佳故事脉络。

图4 基于聚类生成故事脉络的事件操作

为处理动态在线网络数据,Shou等[35]提出在线数据流聚类算法聚类帖子,算法利用K-means对少量帖子聚类创建初始簇,提出一种新型数据结构TCVs(Tweet Cluster Vector)表示帖子簇的信息,并对TCVs进行增量更新,最后根据TCVs中的时间信息生成故事脉络。而Zhou等[36]根据帖子共有关键词计算关联度以得到事件簇,然后使用层次聚类算法建立故事分支,最后按时间顺序排列生成故事脉络。此外,Goyal等[37]把Jaccard作为相似性权重,通过事件语义和时间上的融合获得不同层次的事件簇,即故事分支。

基于传统向量计算进行聚类的方法也广泛应用于故事脉络构建研究中。Hawwash等[38]把事件帖子处理成向量,作为聚类输入构建故事脉络。Swan等[39]提出命名实体和名词短语聚类的方法,首先从新闻语料库中捕获涵盖新闻主题的命名实体与名词短语,然后将其聚集成簇并按时间生成交互式故事脉络。Wen等[40]从用户角度出发,根据用户阅读的成本函数来定义事件的粒度,把成本函数结果和事件向量作为聚类输入。Ansah等[41]提出一种事件的时间线摘要结构StoryGraph,模型中事件被训练为向量,通过计算事件向量和故事分支向量(原文把故事分支向量定义为Topic Theme)的相关性,并基于相关性更新故事分支或创建新的故事分支,最后串联故事分支得到故事脉络。

2.2 基于特征建模的故事脉络构建

属于同一故事分支的事件可能具有相似的主题分布,基于这一论断,基于特征建模的方法根据事件特征对故事脉络进行结构表示建模,由事件分布的相似性推断事件间的隐式关系,识别事件所在的故事分支。根据特征建模的方法理论,将基于特征建模的故事脉络构建研究分为基于贝叶斯模型的方法、基于Biterm主题模型的方法、基于非负矩阵分解的方法和基于神经网络的方法。

2.2.1 基于贝叶斯模型的方法

贝叶斯网络模型是使用最为广泛的主题模型,可以对新闻文档的词、文档、主题等特征建模,推断文档所在故事分支,同时也能有效建立文档间的隐式关系,进而自动生成新闻事件的故事脉络。基于贝叶斯模型的方法生成故事脉络主要包含以下三个步骤:

(1) 提取新闻文本的词、文档、主题等特征,并把故事脉络建模为这些特征的联合分布;

(2) 用吉布斯采样推断贝叶斯模型参数,获得每篇新闻所属的故事分支;

(3) 把属于相同故事分支的新闻按照时间顺序排列即可得到故事脉络。

其中特征的选择策略对于故事脉络构建结果有较大影响,本文对相关研究的特征选择策略进行了总结,如表3所示。

表3 基于贝叶斯模型相关工作的特征选择策略

2015年,Zhou等[42]提出一种无监督贝叶斯模型(Dynamic Storyline Detection Model, DSDM)对故事脉络进行结构化描述,把故事脉络建模为命名实体和主题的联合分布,通过吉布斯采样推断模型参数,得到不同事件所在的故事分支,最后将相同故事分支的事件按时间整理得到故事脉络。2016年,Zhou等[43]对DSDM进行改进,提出动态故事脉络抽取模型(Dynamic Storyline Extraction Model, DSEM),该模型对文档中的命名实体作了细粒度划分,把故事脉络建模为事件、主题和关键词的联合分布,改善了故事脉络生成效果。2020年,Guo等[46]在Zhou等[43]工作上继续改善,提出动态故事脉络抽取模型(Dynamic Dependency Storyline Extraction Model, D2SEM),并假设当前时期的先验分布是先前时期这些分布的加权和,并使用随时间变化的演化模型参数来捕获分布的变化。佘等[45]认为Zhou等[42-43]的模型忽略了新闻文章最重要的时间特性,并且事件描述较为粗略,因此对事件进行了更为详尽的描述,把故事脉络建模为日期、时间、机构、人物、地点、主题以及关键词的联合分布,实验结果表明加入时效性的度量能够生成质量更好的故事脉络。

另外,贝叶斯模型也能有效学习隐式因素、建模文档间的隐式关系,Hua等[44]提出自动故事脉络生成(Automatical Storyline Generation, ASG)层次贝叶斯模型,把故事脉络表示为一个三层结构,故事脉络是根节点,事件类型位于第二级,最细的粒度是主题,然后利用社交媒体标签过滤事件类型,用吉布斯采样对模型参数进行估计,最后得到故事脉络、事件类型和主题之间的关系。

为解决事件数量对故事脉络生成质量的影响,Chang等[47]采用贝叶斯参数来确定事件数量,获取事件内容及时间信息,引入老化策略加速推断模型参数,最后基于learning-to-rank方法[48]将社交媒体数据中各类型信息整合,用于故事脉络总结。而Mele等[49]把新闻链接问题映射到左右移动马尔可夫链的隐马尔科夫模型(Hidden Markov Model, HMM)中,HMM中的状态数表示要发现的主题链数,并利用贝叶斯信息准则确定HMM状态的最佳值,最后用维特比算法找到最佳状态序列,将主题链接到时间线上。

2.2.2 基于Biterm主题模型的方法

赵等[50]基于主题模型IBTM (Incremental Biterm Topic Model)改进,利用滑动窗口限制biterm范围,提出适用于长短文本的News-IBTM 模型抽取新闻事件主题,进一步利用JS散度关联事件,生成事件线索,即故事脉络。

2.2.3 基于非负矩阵分解的方法

早在2013年,Wang等[51]就提出基于潜在语义索引(Latent Semantic Indexing, LSI)的方法进行大规模主题建模,为解决奇异值分解面临的高维度计算量大的问题,把非负矩阵分解(Nonnegative Matrix Factorization, NMF)引入到文本分析中。Kalyanam等[52]用NMF模型从事件演化转折点以及最终如何消亡的角度,将文档-词矩阵分解为文档-主题和主题-词矩阵,同时在每个时间点计算新的主题矩阵,用于表示主题时间演化。王等[53]用NMF模型挖掘技术主题事件的演化,使用NMF进行主题建模得到不同时间窗口的动态技术主题,最后把动态主题与时间结合得到主题随时间的演化脉络。

2.2.4 基于神经网络的方法

现有的故事脉络生成方法一般基于监督式学习,然而不需要注释数据的概率图模型却因为参数推理十分复杂导致模型收敛时间较长。为解决这个问题,Zhou等[54]提出基于神经网络的故事脉络提取模型,假设相邻时间的相似文档具有相似故事脉络分布,通过训练模型来预测前一时间段的故事脉络分布。由假设可知两个时间段的故事脉络分布相似,于是可以把相关事件链接到不同的时间段,进而构建故事脉络。

2.3 基于传播模型的故事脉络构建

研究者将面向Web的故事脉络构建视为事件在Web环境下传播过程的建模,通过建立故事传播模型,将事件的语义特征与时序特性结合建模为图结构,根据图的性质生成故事脉络。具体可分为基于树生成的方法和基于图匹配分割的方法。

2.3.1 基于树生成的方法

基于树生成的方法目前被广泛应用在社交网络数据上,研究人员把故事脉络生成视为图结构中的树生成问题,通过在图中生成最优子树从而得到故事脉络。根据最优子树生成方法的不同进一步可分为基于最大生成树的方法、基于斯坦纳树的方法和基于最小生成树的方法。虽然方法细节存在不同,但基本步骤一致,主要步骤如下:

(1) 以微博为图节点,根据微博间关联关系,以及微博间的时序关系,构建图结构;

(2) 根据图结构中微博的关系筛选代表性微博节点。如欧等[55]计算加权相似度在图中寻找代表性微博,Wang等[56]使用支配集的近似算法在图中选择代表性节点,Meladianos等[57]计算边权重确定重要事件。

(3) 使用图优化算法从图中生成树以得到故事脉络。如李等[58]为识别出的弱连通分量构造最大生成树以得到故事脉络,而Wang等[56]使用斯坦纳树算法从支配集中生成故事脉络。

目前,研究人员围绕树生成的方法提出了对故事脉络构建研究的一系列改进,其基本流程如图5所示,下面将对主要的方法进行逐一总结。

图5 基于树生成故事脉络的基本流程

(1) 最大生成树

2007年,Lin等[59]基于事件和主题之间的相似性衡量事件间关联程度,由图节点术语频率衡量节点的重要性,最后由最大生成树算法从图中生成故事脉络。后来Lin等[60]对系统进行改进,考虑事件信息的数量、格式及质量,用更复杂的数据集进行测试,提升了生成的故事脉络质量。

针对文本时间信息难以确定事件顺序的问题,Kolomiyets等[61]提出用时间依赖结构描述文本时间线,事件利用偏序关系进行连接,然后基于移进-归约模型和基于图的模型两种不同的方法生成故事脉络,移进-归约模型通过重复选择和执行操作将事件词链接到树中,而基于图的模型在所有事件词中生成一个加权图,从图中生成最大加权的子树。李等[58]把事件演化表示为有向无环图,根据事件权重生成有向边构造事件图,然后在图中识别弱连通分量,为弱连通分量构造最大生成树,最后通过对每一棵树排序即得到故事脉络。

樊等[62]引入语义、时间、地点、参与者和关键词等事件细粒度特征计算事件相似度,由此建立多点属性视图,把故事分支生成转化为图中社区检测问题,用最大生成树构建故事脉络。

(2) 斯坦纳树

与其他树生成方法不同的是,斯坦纳树算法容许在特定点之外添加其余的事件节点,使得构造的故事脉络树结构花费更小。基于斯坦纳树构建故事脉络一般在图构建和节点筛选上存在区别,例如Wang等[56]考虑文本和图像并结合时间信息构造加权多视图,而Zhou等[63]考虑事件的时空特性构建图结构,最后都使用最小权重支配集在图中选择代表性的事件节点。

此外,Lin等[64]把重点放在社交网络数据上,对具有动态性和稀疏性的社交网络数据进行处理,生成故事脉络。由于最小权重支配集与斯坦纳树属于NP-hard问题,在处理大规模数据上耗费时间较长。所以,李等[65]对Lin等[64]生成支配集的算法加入了Top-k集进行优化,并用时间窗口约束斯坦纳树的搜索上下限,减少了支配集和斯坦纳树生成的时间复杂度。

为了描述灾难事件的演变,Yuan等[66]提出用两层结构表示灾难事件的故事脉络,第一层描述事件随时间、地理位置演变的故事主线,第二层描述不同地理位置的局部故事脉络,用事件的唯一性与关联性筛选代表性事件,通过有向斯坦纳树对故事脉络进行动态更新。Yuan等[67]后来结合生成对抗网络将图文融合以得到事件的多媒体信息,并基于度与集聚系数的方法选择代表性事件。

(3) 最小生成树

Nazanin等[68]在有向图中寻找最小生成树以生成故事脉络。最小生成树与最大生成树的不同之处在于边构造计算方法上,最小生成树恰好与最大生成树方法中边权重衡量方法相反,此时节点越相似边权重越小。

已有基于树生成方法的故事脉络构建研究的主要区别在于如何筛选代表性事件节点以及如何由节点生成故事脉络。本文从三个不同视角对已有工作进行比较,结果如表4所示。

表4 基于生成树的方法总结

2.3.2 基于图匹配分割的方法

Long等[70]把事件链接任务定义为二分图上的图匹配问题,利用最大权重二分图匹配算法,捕获相邻时间发生的两个事件之间的关系,以事件链的形式将匹配的事件进行分组,然后从相关性、主题覆盖度和反映事件演变的能力三个角度来选取摘要、呈现故事脉络。Huang等[71]用检测到的文章属性构造多视点图来表示文章之间的关系,并把故事分支分割的问题转换为一个社区检测问题,然后采用社区检测算法对图中的故事分支进行分割,最后故事分支被链接到故事脉络中。

2.4 基于时间线摘要的故事脉络构建

基于时间线摘要的方法把故事脉络生成看作是时间线上的多文档摘要问题,通过把事件在时间轴上按发生顺序排列,用摘要技术选择代表性句子对各阶段的事件发展进行总结,保证了故事脉络信息的逻辑连贯性与完整性,最终得到简单的故事脉络。根据摘要技术的不同,基于时间线摘要的故事脉络构建研究主要有基于优化的方法和基于机器学习的方法两类。

2.4.1 基于优化的方法

有研究人员把时间摘要任务定义为优化问题,如Mishra等[72]基于散度把文本、时间、位置以及命名实体视为事件的独立维度,利用整数线性规划对事件的摘要进行全局推理,提高摘要与输入事件查询的整体相关性。徐等[73]使用滑动窗口的方法遍历时间轴上的事件序列,解决组合枚举产生的高时间复杂度问题,然后用重复度阈值和综合指标评分从滑动窗口枚举所有组合中筛选出的最优消息,最后将筛选的消息按时间排序得到事件演化脉络。Yan等[74]在新闻摘要的基础上考虑了新闻的演化特征,把摘要任务定义为平衡优化问题,用相关性、覆盖范围、一致性和多样性衡量目标函数,然后用均衡最大化框架对目标函数执行局部优化和全局优化以生成演化的故事脉络。类似地,Huang[75]也用局部层面和全局层面建模故事脉络,然后用优化的方法在每一个层面中确定句子是否被选择作为摘要句子。另外,Wang等[76]在优化的函数中考虑了由用户生成并提供了丰富社会背景的内容,对复杂的事件构建包含新闻文章摘要和用户评论的故事脉络。

2.4.2 基于机器学习的方法

上述方法均是基于最优化策略,也有研究人员基于排名打分的策略提取时间摘要。Tran等[77]以实体为单位,把提及人员、位置和组织等实体的句子作为事件级别的上下文,得到实体的排名信息,用实体总结各时间点的事件。Schubotz等[78]利用BM25评分从新闻文档流中提取事件,把文档流更新作为新发生的事件,利用概率语言模型提取代表新兴事件的句子,基于代表性句子生成故事脉络。AlNoamany等[79]结合社交媒体与网络数据,根据数据来源、URL级别、URL类别等质量指标挑选出最具代表性的数据,然后按时间顺序排列数据界面,可视化故事脉络。Zhao等[80]将用户兴趣作为故事脉络的考虑因素,基于用户兴趣度来发现演化阶段,通过最大标记相关性来对每个演化阶段的帖子进行多样性排序,最后输出最佳句子表示事件发展。

另外,也有研究人员用统计的方法对事件概述进行摘要。例如,Wang等[81]把事件句定义为同时包含实体项、动词项、时间项和位置项的句子,根据语义的相似性度量,把句子分配给事件,根据每个事件发生的时间,得到故事脉络。Swan等[82]在自由文本语料库中对文本进行统计,对语义特征进行检测排名,然后根据文本中的日期标签,生成某一主题相关故事的概述时间轴。Binh Tran等[83]从网络新闻文章中提取时间信息,评估句子的重要性分数,最后返回得分较高的句子生成按时间顺序排列的故事脉络。针对现有摘要方法无法利用文档中时间特性的问题,Yan等[84]对故事脉络摘要之间的跨时间相关性进行建模,把句子关系分为日期间依赖关系和日期内依赖关系,建立句子相似性和多样性模型,计算句子重要性得分,最后挑选得分最高的句子构建故事脉络。

2.4.3 其他时间线摘要方法

与寻常单一的文本数据研究不同,Yan等[85]把故事脉络生成问题扩展到文本以及图像领域,提出一种新颖的基于图形的时间线摘要框架,通过考虑句子和图像之间的相互依赖性,把图像作为附加信息补充文本摘要。王等[86]采用条件随机场模型对文档中的时间表达式进行学习,以包含时间表达式的句子作为摘要对象,用基于时间戳的逆向匹配算法生成事件时间演化序列,根据不同时间表达式基点填充缺失的时间信息,最后经时间排序得到事件演化序列。Alonso等[87]构建了一种关于竞技比赛的新颖时间轴,在赛事活动中对“得分”等重要事件进行考虑,用帖子数量以及关键词注释时间轴上的每一个事件。

2.5 小结

目前故事脉络构建方法的相关研究工作较多,其研究背景、理论基础、算法性能都存在较大差异。面向关联性分析的故事脉络构建分为基于相似度分析与基于相似度聚类, 基于相似度分析一般生成单线索故事脉络,事件间的关联性分析会直接影响事件链接,因此如何对事件关系有效度量是该方法的难点;基于相似度聚类的故事脉络构建通过关联性分析用增量的思想处理数据流,实现故事脉络的实时更新,但事件形成时相关语料较少,如何形成初始事件簇是聚类的难点。

基于特征建模的故事脉络生成对事件特征进行建模,其中贝叶斯网络能够很好地建模词、文档、主题三者间的关系,推断文档所在的故事分支,有效检测事件间的隐式关系,但参数推断导致时间复杂度较高。非负矩阵分解同样建模词、文档、主题间的关系,但不同时间节点的事件仅使用了关键词表示,造成理解起来具有一定困难。神经网络模型主要解决贝叶斯网络参数推断复杂、收敛时间长的问题,有一定研究意义。

基于传播模型的故事脉络构建根据图算法生成故事脉络,其中基于树生成的方法相较于其他方法能够生成结构更为清晰的故事脉络,但常见的最大生成树、斯坦纳树算法和最小生成树算法都属于NP-hard问题,因此基于树生成的算法核心是如何在多项式时间里从图中找到最优的故事脉络。而基于图匹配分割的方法虽然在一定程度上降低了图上故事脉络生成的时间复杂度,但也使故事脉络丧失了部分结构性。

基于时间线摘要的方法主要是为了解决故事脉络构建中的逻辑连贯性问题,通过把事件在时间轴上按发生顺序排列,用摘要技术选择代表性句子对各阶段的事件发展进行总结。但是由于没有对事件关系进行细粒度分析,此方法得到的是沿时间线发展的单线索故事脉络,用户难以知晓事件间的演化关系。

为全面比较不同方法,针对故事脉络的结构特点、方法的时间复杂度高低及关键特征对故事脉络构建方法进行归纳,详细信息如表5所示。

表5 故事脉络构建主要方法特点

3 事件演化分析

通过构建故事脉络可以帮助人们理解新闻事件的发展,而事件演化分析能够发现故事脉络中事件的演化规律。理解这种演化规律,对深入挖掘故事脉络具有重要意义。通过调研国内外研究现状,目前挖掘故事脉络中的事件演化规律往往需要解决两个方面的主要问题;

(1) 如何建立事件生命周期的演化模型?社会事件的演变与哲学中事物的演化相似,存在类似生命周期的阶段性变化规律。事件随时间演化,形成网络用户的情感极性、观点评论、传播转发等事件衍生信息,如何从这些衍生信息中建立社会事件的生命周期演化模型,反映社会事件的热度变化,是事件演化分析需要解决的首要问题。

(2) 如何捕获事件传播的演化模式?事件不会孤立存在,事件的逻辑性、偶然性、多样性导致不同事件相互影响,诱导新事件产生。不同类型的事件可能具有不同的演化模式,如灾害事件具有发散式的树状传播规律,一种灾害的发生总会相继触发新的次生灾害。获取事件的演化模式有助于理解事件间的因果关系,并且能够提前做出应急方案。因此,捕获事件的演化模式是事件演化分析中的一个关键问题。

3.1 演化周期分析

事件在现实世界中具有一个发展周期,萌芽时期事件逐渐形成,少量民众参与事件讨论;成长时期事件逐渐扩散,更多新闻媒体参与报道,大量民众参与事件讨论;高潮时期,民众参与事件的讨论度达到顶峰;衰退时期,事件传播逐渐衰弱,并且没有后续发展;消亡时期,公众热度趋于消失,民众逐渐遗忘该事件。总之,事件总是处于动态变化中,不再动态变化的事件说明它已经消亡。事件在其生命周期内的特点如表6所示。

表6 生命周期内不同阶段的事件特点

3.1.1 基于生命周期理论的方法

与传统方法忽略事件的生命周期不同,部分研究者围绕故事脉络中事件生命周期的演化展开研究,Lee等[33]为事件演化定义新兴阶段、成长阶段及衰落阶段三个过程,用于描述事件热度变化,但却没有确切指出事件演化的生命周期。基于Lee等的工作,梁等[88]和刘等[89]将突发事件信息传播划分为萌芽期、成长爆发期、衰退期,提出生命周期的概念。谢等[90]提出网络舆情突发事件的生命周期原理,将事件生命周期分为更细粒度的潜伏期、萌动期、加速期、成熟期和衰退期五个阶段。类似地,Mu等[91]把事件的生命周期分为萌芽、发展、鼎盛、衰退和平静五个阶段,并使用事件的流行性预测事件演化阶段。

3.1.2 基于老化理论的方法

研究人员从生命体的老化规律出发,用能量值衡量事件的生命周期。受人工生命理论启发,Menczer等[92]把从环境和用户处交换的信息视为能量,由此Chen等[28]把事件视为具有出生、成长、衰老和死亡阶段的生命形式,首次提出老化理论来模拟事件的寿命,用能量函数值表示新闻事件在其生命周期中的活跃性。老化理论把事件生命周期映射为能量函数值,能量函数值表示事件的生命周期状态,值越高说明事件讨论度越高,值变低说明事件讨论度正逐渐消失。

Chen等[93]在后来的工作中基于老化理论对时序事件构建生命周期模型,营养丰富时事件生命周期延长,营养被消耗时事件逐渐消亡。类似地,Chen等[94]考虑事件的传统特征与生命周期特征,用老化理论衡量事件关键词的生命周期,由于词的频率随着事件的发生而变化,因此用词和时间间隔之间的关联来表示营养价值。Chen等[95]认为话题术语的生命周期决定术语的实时性,而术语的实时性表现为不同时间窗口中术语的能量变化,因此用老化理论跟踪事件热点词的生命周期。

3.1.3 基于产品生命周期模型的方法

社交媒体分析中,Chang等[96]提出时间序列建模方法,利用经济学家提出的模拟产品寿命的产品生命周期模型(Product Life Cycle, PLC),捕获事件在时间序列中的突发尖峰和重尾模式,进而发现时间序列中事件的固有生命周期。后来的工作中,由于事件通常在时间序列上表现出独特的时间属性,因此Chang等[47]使用生命周期模型挖掘时间信息,以捕获时间线上具有突发尖峰和重尾模式生命周期的事件。

3.1.4 基于概率模型的方法

为发现事件序列中的演化阶段,Yang等[97]提出基于概率模型的方法来学习时间演化事件序列中的演化模式,并根据事件序列的演化方式将它们分割成各个演化阶段,提出不同数据集中演化阶段的不同含义。如在医疗记录数据集上演化阶段表示疾病的发展,而在新闻文章数据集上演化阶段表示事件如何变得流行然后逐渐消亡。梁等[88]将突发事件的生命周期分为初生萌芽期、快速成长期、衰退死亡期三个阶段,然后采用遗传算法对贝叶斯网络学习得到最优网络模型。

3.2 演化模式分析

事件发展的过程中,事件间相互依存,存在一定的演化规律。王等[98]认为突发事件间存在连锁反应,并用事件间的因果关系构建突发事件连锁反应的网络拓扑结构。而荣等[99]认为突发事件存在点状演化模式、链状演化模式、网状演化模式和超网络演化模式。在本文所讨论的故事脉络中,事件的演化规律主要从故事脉络的结构展开,把这些演化规律称为演化模式,并分为链状结构、树状结构及网状结构三种模式。

链状结构指一个事件的发生原因与前一个事件的发生存在一定关联,这些事件在时间轴上顺序排列。基于相似度分析的方法[20-27]在构建脉络时仅考虑事件关联性,按照时序特征排列事件;基于时间线摘要的方法[72-87]把故事脉络构建考虑为多文档摘要的问题,但未对事件间细节进行分析,因此生成的链状结构故事脉络如图6(a)所示。

也有部分研究人员[20]对不同故事分支间的事件关系进行分析,得到不同故事分支中的事件之间存在的联系,这些事件彼此间相互促进交织到一起形成事件脉络的网状结构,如图6(b)所示。

树状结构由多条链状结构组成,这些故事分支按自身的发展方向演化。贝叶斯模型[42-49]能建模词、文档、主题间的关系,发现文档所在的不同故事分支,基于聚类的方法[5,30-41]用增量的思想把事件链接到不同的故事分支上,而基于传播模型的方法[55-71]用优化策略从图中生成树,进而得到故事脉络,这些方法往往能生成多线索故事脉络,即树状结构,如图6(c)所示。

图6 故事脉络演化结构

3.3 小结

事件演化分析包括演化周期分析与演化模式分析两方面,演化周期分析利用老化理论、产品生命周期模型、概率模型与生命周期理论对事件生命周期建模,通过事件的热度信息进行事件动态演化的生命周期分析。而演化模式则从故事脉络结构和事件传播规律的角度出发,分析事件演化发展的阶段特征,事件的演化模式可分为链状演化结构、树状演化结构和网状演化结构。

4 数据集和评测

4.1 数据集

故事脉络挖掘需要丰富的社会事件数据。近年来,随着互联网飞速发展,社会新闻在互联网上传播发酵,形成了丰富的社会事件资源库。故事脉络挖掘常用数据集包括两部分: 一是作者自建数据集,二是公开数据集。

4.1.1 作者自建数据集

故事脉络挖掘研究存在主观性,因此在数据集搜集、标注、评测等方面均面临一定程度的挑战。在目前已有的故事脉络挖掘工作中,研究人员一般通过自建数据集进行实验。新闻网站是随着互联网的兴起而出现的一种新电子媒体,而随着互联网信息爆炸式增长,社交网络成为新一代的用户获取信息的平台。前者内容丰富,后者数据稀疏,因此故事脉络挖掘算法在不同数据集上较难具有普适性。已有研究中的作者自建数据集可归纳为两类,详细特点如表7所示。

表7 代表性作者自建数据集的特点

除以上作者自建数据集外,也有研究人员对已有的数据进行改进,例如Zhou等[42]从GNELT中抓取了2014年5月的新闻事件,并手动注释了一周中的101 654份文档,确定了77条故事脉络以进行实验。事实上,GNELT是一个记录全球社会事件的自由开放平台,该平台从1979年开始记录世界每个角落的新闻媒体,形成一个庞大、全面的人类社会事件数据库,这无疑将成为故事脉络挖掘工作潜在的数据来源之一。

4.1.2 公开数据集

由于故事脉络挖掘工作公用数据集较少,Holt等[100]提出并公开了一个涵盖39个实体的18 793篇新闻文章的数据集TGD (Timeline Generation Dataset),每个实体都提供了标准时间及其对应的新闻文章。数据集包含主要数据集和次要数据集两部分: 主要数据集由实体、文章和文章特征组成,而次要数据集则包含Google News检索到的实体相关文章。但遗憾的是TGD数据只考虑故事脉络的主线剧情,缺少故事脉络中的支线结构。

Caselli等[101]在2016年报告了一种大型文档集中故事脉络构建的参考语料库,通过时间和结构为故事脉络进行定性定量评估。故事脉络的注释和表示方案建立在ECB+(Event Coref Bank)注释方案[102]基础上并进行扩展,同时继承了TimeML[103]时间语义注释,限制事件必须与事件时间挂钩、时间顺序关系必须存在语言证据才允许被注释。然而语料库的标注工作仍旧处在比较早期的状态,并且没有提出实验基准。 2017年,Caselli等[104]遵循之前工作中的部分内容,提出第一个故事脉络语料库(Event Storyline Corpus, ESC, v0.9)。该工作把故事脉络提取描述为三个连续的子任务: ①事件检测与分类; ②事件的时间确定; ③事件可解释关系的识别与分类。2018年,Caselli等[105]使用ESC v1.0作为数据进行众包实验,将其和专家标注的数据进行比较,发布了事件故事脉络增强版语料库(ESC v1.2)。

4.2 评测标准

介于故事脉络挖掘研究的数据集主要来源于作者自建数据集和公开数据集,因此把评测标准分为自建数据集上的评测和公开数据集上的评测两部分。

4.2.1 作者自建数据集评测

针对作者自建数据集,面向Web的故事脉络挖掘工作评测内容主要包含两方面,分别是故事脉络中事件评价和故事脉络结构性评价,其中事件评价又分为故事分支评价和事件概述评价两类。

对故事脉络中故事分支的评价,研究人员[58]常用的评价指标主要包括正确率(precision,P)、召回率(recall,R)和F值(F1-score,F1),计算如式(1)所示。

(1)

其中,Ep是生成的事件簇,Es为标准事件簇。此外,也有研究人员[5]采用同质性(Homogeneity,h),完整性(Completeness,c)和调和平均(V-measure,v)评价事件簇的提取性能,计算如式(2)所示。

(2)

其中,H(C)和H(K)为类熵,H(C|K)和H(K|C)为条件熵,详见文献[106]。

就事件概述评价,研究人员把该问题定义为摘要问题,常用ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[107]作为评价标准,常用的有ROUGE-N、ROUGE-W和ROUGE-S。但是基于ROUGE的评价指标仅能够衡量故事脉络中事件信息的好坏,而这只是故事脉络结果的一部分。

针对故事脉络结构性评价的问题,Liu等[5]把算法生成结构和标准故事脉络结构进行对比,用故事脉络中正确连接的边和一致路径综合评价故事脉络结构,但是仍旧存在一定局限性。

此外,还存在一类较为主观的评价方式,即研究人员随机招募来自各行各业的评价人员,通过盲评对故事脉络进行评价,具体细节如表8所示。

表8 盲评的评价标准

4.2.2 公开数据集评测

TGD数据集中,Holt等[100]提出使用来自Google新闻的文章补充原始数据集以验证评测任务,并利用三种基准对数据集进行测试,其中性能衡量标准为ROUGE指标。基准系统的F值如表9所示。

表9 基准系统的F值[100]

其中基准包括:

(1) Random (R): 随机抽取语料库15篇文章;

(2) Random + Linked (RL): 抽取15篇链接到某一实体的文章;

(3) Ordered + Linked (OL): 选择实体排名最高的15篇文章。

ESC数据集的评测工作中,Caselli等[104]提出三种基准,衡量的主要标准为精确率(P),召回率(R)和F1值,表10给出了与黄金数据的比较,评测为任务3(事件可解释关系的识别与分类)。

表10 三种基线模型在事件链接识别和分类中的结果[104]

(1) OP: 从模拟顺序事件关系选择事件对;

(2) PPMI1: 用点互信息选择事件对;

(3) PPMI-CONTAINS: 用点互信息选择事件对,并限制事件对享有相同的时间锚点。

4.3 小结

在故事脉络挖掘领域,目前仅有少量公开数据集,通过对比分析可以得到以下结论: ①研究人员大多通过自建数据集挖掘故事脉络,根据数据来源可分为新闻网站数据和社交网络数据; ②公开数据集中,TGD数据集侧重于故事脉络主线生成,缺乏故事脉络中的分支结构,而ESC数据集更集中于讨论故事脉络中事件的因果关系、顺承关系。换言之,TGD数据集更适合于建立单线索故事脉络,而ESC数据集中丰富的事件关系有益于构建多线索故事脉络。

就评测方式而言,基于作者自建数据集构建故事脉络的研究人员一般集中于对事件簇和事件概述进行评测,其中聚类指标如F1-score和V-measure常用于评价事件簇的聚类性能,而摘要评测指标ROUGE一般用于评测事件概述的优劣。在公开数据集中,TGD数据集同样采用ROUGE指标评测,而ESC数据集则把评测的重点集中于故事脉络中事件的链接关系上,用F1-score评测其性能。然而这些评测指标都聚焦于评测故事脉络中的事件,忽略了故事脉络本身宏观上的评测,即故事脉络自身的逻辑性、可理解性等。现有的方法是通过招募人员进行盲评,但还缺乏一定的客观性。总的来说,目前自建数据集缺乏领域使用的普遍性,而公开数据集则较少关注故事脉络的各个环节,因此,分别基于两种数据集的评测都不能完全代表该领域的主流方法,需要建立统一的评测数据与评价指标才能集中进行对比分析。

5 未来研究展望

5.1 未来研究挑战

5.1.1 面向故事脉络构建研究的语料库建立

就目前故事脉络挖掘研究而言,研究人员使用的数据集一般为来自互联网的作者自建数据集,包括新闻网站发布的新闻数据,或者来自社交网络中用户讨论事件所发表的帖子。目前仅有少量公开标注的新闻事件语料库来支持故事脉络构建研究,且其语料规模较小,几乎没有被广大研究人员广泛采用。这意味着很难用比较客观的方式来判定故事脉络构建的结果。一个用于故事脉络构建的语料库,不仅应该具有事件特征(如时间、地点、人物、关键字等)的详细标注,同时也应具有事件演化特征,如事件演化周期、事件演化关系以及事件演化公众热度变化、情绪变化等,从而能够更准确地评测故事脉络构建方法。

5.1.2 故事脉络挖掘的高效评估机制

目前故事脉络构建研究的评估机制是将人工构建的故事脉络与机器算法生成的故事脉络进行比较,通常使用ROUGE评测指标作为故事脉络中事件概述的评测标准。然而,在衡量故事脉络的连贯性上,ROUGE评测指标只能度量故事脉络中事件概述本身的质量,对故事脉络整体结构的评测存在缺陷。招募群众盲评的方式是目前较多采用的评估故事脉络整体结构的方法,但此种方式较为主观,很难用少数评测人员的意见去代表其他人。因此,建立一个能够普遍适用于故事脉络构建方法的评测体系是该领域未来研究的一个方向。

5.1.3 基于多源数据融合的故事脉络挖掘

自社交网络兴起以来,像微博、Twitter这样的社交媒体已经成为事件传播不可或缺的一部分,人们在社交媒体上讨论事件、发表见解,社交媒体已经成为重要的社会背景信息来源之一。事实上,新闻媒体在事件传播方面同样扮演着重要角色,事件传播往往是多个信息源相互作用所形成的。社交网络和新闻媒体之间既是竞争者关系又是合作者关系,社交媒体上用户讨论的热度越高,就会导致新闻媒体的关注度提高,媒体从业者也更加乐意报导用户更加关注的事件。然而新闻网站的数据信息虽然由新闻从业人员编辑,质量较高且处理相对容易,但是缺乏用户观点和情感信息;而社交网络的大量数据信息虽然语言描述随意且不规范,但是却包含丰富的事件情感观点信息。因此将多个信息源的数据融合后从多个维度、多个话语体系挖掘并构建故事脉络,能够更大程度地反映出某个新闻事件演化的真实性与准确性。然而,由于新闻网页和微博的数据源信息在数据格式、语言风格等方面存在着较大差别,如何对多源信息蕴含的故事脉络信息进行统一的语义表示,是需要重点考虑的问题。

5.2 未来研究技术框架

传统的Web信息挖掘通常以文本信息抽取和挖掘为主,但在新闻事件中,文本、图像、视频等多模态的数据已成为近年来新闻事件展示的主要手段。多模态数据的信息提取和挖掘不同于传统的文本挖掘技术,需要研究新的方法。例如,可以采用迁移学习方法通过对视频周围的文本进行学习得到模型,然后基于文本学习的模型来提取视频中蕴含的故事脉络信息。

图7展示了对多模态数据进行故事脉络挖掘研究的技术框架,与单模态故事脉络挖掘不同,多模态数据意味着需要基于多模态建立事件关系,可以通过设计一种多层次的事件关系模型,采用不同层次表示不同数据模态。对于这类关系模型,既能考虑基于传播模型建立故事脉络,也能考虑通过图神经网络模型[108]学习事件关系。最终将故事脉络构建为多模态故事脉络,能够更加丰富用户对事件演化的理解。

图7 多模态故事脉络挖掘

6 结束语

故事脉络挖掘借助机器算法从互联网挖掘社会事件,生成事件发展脉络,使人们直观地了解事件的前因后果,同时在新闻检索、文本摘要、舆情监管等领域也具有广阔的应用场景。本文从故事脉络构建和事件演化分析两方面介绍了故事脉络挖掘工作的相关进展,首先围绕构建故事脉络面临的主要挑战,从基于关联分析的故事脉络构建、基于特征建模的故事脉络构建、基于传播模型的故事脉络构建以及基于时间线摘要的故事脉络构建四个方面对现有工作进行归纳总结。然后对事件演化分析研究在演化周期和演化模式两个方面的工作进展进行梳理和比较,介绍了老化理论、产品生命周期模型、概率模型与生命周期理论在演化周期分析研究中的原理和应用,同时总结和分析了链状演化结构、树状演化结构和网状演化结构等不同演化模式的相关工作。最后介绍了故事脉络挖掘的一些常用数据集与评测标准。

总的来说,故事脉络挖掘为人们全面、准确、有序地获取和理解新闻事件的故事发展脉络及动态演化过程提供了有效捷径。然而,由于互联网数据具有碎片性、无序性、复杂性的特点,故事脉络挖掘任务对模型理论的性能和效率提出了极高的要求。如何正确构建故事脉络、准确分析事件演化过程是故事脉络挖掘研究的关键,同时,故事脉络挖掘研究将会是未来文本挖掘和信息检索交叉领域中不可或缺的研究方向之一。

猜你喜欢

脉络方法模型
福州吟诵调留存脉络梳理
延安时期的党建“脉络”
重要模型『一线三等角』
重尾非线性自回归模型自加权M-估计的渐近分布
党的建设学术脉络与前沿动态——基于CiteSpace的知识图谱
组织场域研究脉络梳理与未来展望
3D打印中的模型分割与打包
用对方法才能瘦
FLUKA几何模型到CAD几何模型转换方法初步研究
四大方法 教你不再“坐以待病”!