词语语义相似度在突发事件案例检索中的应用
2020-07-21邱俊安邱奇志周三三陈先桥
邱俊安,邱奇志,周三三,陈先桥,贺 宜
(1.武汉理工大学 计算机科学与技术学院,湖北 武汉 430063;2.武汉理工大学 智能交通系统研究中心, 湖北 武汉 430063)
近年来,全球范围内各类突发事件频发,给社会和谐稳定和人们生活带来了影响和危害。面对突发事件的危害,开展突发事件案例检索研究对于实现科学救援、精准决策具有重要的现实意义。案例检索是寻找与目标案例相似的历史案例,通过指定策略或设计算法从案例库中检索出相似案例(集),从而帮助目标案例的决策。目前,已有研究将案例检索应用于火灾、地震等突发事件中,证明了案例检索在应急管理中的实用性和有效性[1-2]。很多学者针对案例检索方法进行了研究,主要包括最近邻法、归纳索引法和神经网络法等。其中,最近邻法是最常用的案例检索方法,该方法通过属性的相似度来衡量案例之间的距离,距离越小的案例越容易被检索出。如张佰尚等[3]将地震案例的固有属性特征划分为确定符号属性、确定数属性和模糊数属性,并通过计算这3种类型的属性相似度来完成案例检索。韩菁[4-5]等在案例属性相似度计算时考虑了精确数、区间数和语言值等属性,并在检索得到的相似案例上分别结合后悔理论和证据理论方法对检索的结果进行调整。LÖW等[6]提出了一个基于多个检索案例的推理框架,以解决缺失符号和数值属性数据的案例推理。WANG等[7]针对清晰符号、清晰数、模糊数、模糊语言变量和模糊区间数5种类型的属性,提出了一种混合相似性度量方法,用于解决计算机数控炮塔概念设计的案例推理。
综上可知,案例属性的相似度计算对于案例检索方法的基础研究和应用研究都发挥着十分重要的作用,尽管已有方法可以较好地完成案例检索,但案例检索的属性相似度计算方面存在局限性,大多数研究基于案例的数值属性、模糊属性、符号属性进行突发事件案例之间的相似度计算,忽略了突发事件案例的文本属性,如事件原因、事件摘要等,这些属性无论对于案例检索还是案例推理都是不可或缺的。为了解决案例检索文本相似度的计算,笔者首先研究了突发事件案例文本属性的特性,着重开展了中文短文本相似度的研究,提出了基于WNCH(word-embedding based on Ngram, character, and HowNet)的词语语义相似度计算方法,以解决案例检索文本的相似度计算问题。在此基础上,将文本属性的相似度计算引入到案例检索中,以期提高案例检索的准确性。
1 基于WNCH的词语语义相似度模型
1.1 基于WNC的词语语义相似度模型
词嵌入(word embedding)是自然语言处理领域中常用的方法,主要是将语料库中的词语表示成一个低维实数向量,从而用来解决文本的不可计算问题。早期的词向量模型多利用<词-词>的映射关系,只讨论了词语在语料库中的分布情况,因此该方法存在单一的共现信息源问题,从而使得词嵌入难以达到较好的结果。
PENNINGTON等[8-10]通过研究发现,在传统词嵌入方法中补充“词”以外的信息,如词共现次数等,能够显著提升词嵌入的语义表达力。笔者的研究是为突发事件案例检索服务的,而结构化的案例属性多内容短小,属于短文本,传统词嵌入方法只考虑了词语所包含的信息,能获取的有效语义信息有限。为了获得更好的词嵌入效果,笔者引入了两种改进策略:引入Ngram以扩展上下文语义信息、引入“字”以增强中文特有的语义信息。
(1)引入Ngram以扩展上下文语义信息。Ngram是一种统计语言模型的方法,其基本思想是将文本内容中的词按照大小为N的窗口进行滑动操作,形成长度为N的文本序列,来考察词语语义。Ngram的优势在于其包含了前N-1个词所携带的信息,产生对未知信息更强的约束力,进而达到在上下文中获得词语语义的目的。QIU等[11-12]研究表明,引入Ngram特征能够有效提升词语类比和词语相似性任务的模型性能。
为了扩展上下文语义信息,基于传统词嵌入单一的<词-词>共现信息,在输入端引入Ngram共现信息,以<(词+Ngram)-(词+Ngram)>替代<词-词>共现模式,从而获得中心词wt的窗口上下文C(wt)。
t-win≤i≤t+win-n+1}
(1)
式中:wi:i+n为wiwi+1…wi+n-1组成的词语序列;N为词语组合中词语的个数;win为上下文的窗口大小。
win为2、N为2时的“词+Ngram”模型的上下文示例如图1所示。示例中,文字序列为“我/曾经/踏遍/青山/绿水/只为/看/尽/人间/繁华”,以中心词“青山”为例,未引入Ngram时,该中心词的上下文为“曾经”“踏遍”“绿水”“只为”;引入Ngram(N=2)后,上下文中增加了“曾经踏遍”“踏遍青山”“青山绿水”“绿水只为”,可见引入Ngram丰富了中心词的上下文信息。
图1 词+Ngram模型的上下文示例
(2)引入“字”以增强中文特有的语义信息。汉语起源于象形文字,是一种表义文字,从诞生之初就被赋予了丰富的语义信息。笔者从扩充语义信息的角度出发,将词和字进行融合。从而将单一的信息源<词-词>类型扩展到<(词+字)-词>类型,以丰富词语的语义信息。
定义汉字集合为H,词语集合为V。h∈H表示一个字,h表示该字对应的向量;v∈V表示一个词语,v表示该词对应的向量。对于一个词语v,融合字的语义信息之后的向量为hv,如式(2)所示。
(2)
式中:T为词语v中字的个数;hk为词语v中第k个字的向量。
字词融合示例如图2所示,可以看出文字序列为“踏遍/青山/绿水”,在计算词语“青山”的向量时融合了单个字“青”和“山”的向量信息。
图2 字词融合示例
根据以上分析,笔者提出WNC(word-embedding based on Ngram and character)向量模型,在传统的词嵌入基础上,融合了Ngram和字的信息,即WNC既体现了词语、字所包含的语言学语义信息,又体现了文本的上下文信息。WNC模型如图3所示。
图3 WNC模型
在WNC模型中,笔者采用word2vec中的Skip-gram[13]模型,在输入端引入词(word)、Ngram、字(character)信息。将单一的上下文输入扩展到多个丰富的上下文信息,从多粒度、多层次的上下文语义信息出发,利用统计学的方法,最终得到表义能力更强的词嵌入。
1.2 基于HowNet的词语语义相似度计算
WNC是基于统计的方法挖掘上下文信息,很难从概念上区分词语的含义,也无法详细地展现概念的层次关系。因此,引入HowNet方法来解决上述问题。
HowNet表示概念间及概念所具有的属性间关系的常识知识库,通过最小意义单位(称之为义原)对概念进行描述。HowNet收录的词语可以分为实词和虚词,刘群等[14]根据HowNet将实词的概念描述为包含第一基本义原、其他基本义原、关系义原、关系符号描述的特征结构,并通过这4个特征计算实词概念之间的相似度。实词概念S1,S2的相似度为Sim(S1,S2),如式(3)所示。
(3)
式中:Simi(S1,S2)为实词S1,S2的第i个特征的相似度;β1、β2、β3、β4分别为第一基本义原、其他基本义原、关系义原和关系符号描述的调节系数。
张沪寅等[15]针对实词概念中的具体词展开研究,以第一基本义原替代义项表达式中的具体词。笔者在利用HowNet计算实词概念相似度时,引入分布式理论“相似的词具有相似的上下文”,采用“词+Ngram+字”的方式计算实词概念中具体词的语义。为了验证所采用的实词概念相似度计算方法的有效性和合理性,以计算“美金”与“日元”的概念相似度为例,开展了文献[14]、文献[15]和笔者方法的对比实验,对比结果如表1所示。
表1 基于HowNet的实词概念相似度实验对比
“美金”和“日元”这两个概念的义项表达式分别为:美金:DEF={money|货币,(US|美国)};日元:DEF={money|货币,(Japan|日本)}。可见“美金”和“日元”的第一基本义原都是“money|货币”,3种方法计算第一基本义原的相似度均为1,但是计算具体词的相似度方法有所不同。
(1)根据文献[14]中的方法,具体词“US|美国”和“Japan|日本”不同,具体词的相似度为0,结合式(3)计算得到最终的相似度为0.500。
(2)根据文献[15]中的方法,使用第一基本义原来替代具体词,具体词“US|美国”和“Japan|日本”的第一基本义原均为“place|地方”,因此具体词“US|美国”和“Japan|日本”的相似度为1,结合式(3)得到最终的相似度为1.000。
(3)笔者方法中,首先采用大规模语料库中文维基百科得到词语的分布式表示,计算得到具体词“US|美国”和“Japan|日本”的相似度为0.530,再由式(3)计算得到“美金”和“日元”的最终相似度为0.783。
从相似度结果上来看,文献[14]在计算具体词的相似度时,没有递归计算具体词的义项表达式之间的相似度,从而忽略了义项表达式中义原之间的相似度关系。文献[15]在文献[14]的基础上进行了改进,使用第一基本义原衡量具体词之间的相似度,但是实验结果中“美金”和“日元”的相似度为1存在一定的不合理性。笔者方法中,引入了分布式理论的计算结果,从宏观上更符合人的主观认识,既能表达其基本信息,又能从上下文语义中体现不同,在最终结果中显示出词语之间的区别度。
1.3 基于WNCH的词语语义相似度计算
笔者进一步融合WNC和HowNet方法,提出基于WNCH的词语语义相似度计算方法。WNCH方法以大规模语料库训练出包含丰富上下文信息的词嵌入,同时能准确表达概念信息的HowNet,从而获取词语的准确含义。笔者使用调节系数对WNC和HowNet方法进行融合,融合之后的相似度为simtotal,如式(4)所示。
simtotal=αsim1+(1-α)sim2
(4)
式中:α为调节系数,其取值范围为0~1;sim1为基于WNC计算的词语相似度;sim2为基于HowNet计算的词语相似度。
笔者令α取值分别为0.2, 0.4, 0.6, 0.8, 1.0,并以百度百科语料库进行测试,以寻找最优的调节参数,实验表明α=0.6时融合效果最好。
为了说明WNCH方法的有效性,将WNCH与传统词嵌入(仅使用词共现信息)方法进行对比,实验采用2016年NLPCC-ICCPOL的词语相似度任务的评测数据和评测指标[16],并使用影响力大、内容涵盖广的中文维基百科数据作为词嵌入的训练数据集,计算得到WNCH方法和传统词嵌入方法的词语相似度结果分别为0.580、0.405。可见WNCH方法计算出的词语相似度相对于传统词嵌入方法具有较明显的提升,说明WNCH方法能够更加准确地衡量词语之间的相似性。
2 突发事件案例检索
2.1 突发事件案例属性
突发事件案例属性是表征案例信息的字段,通常包括事件名称、事件时间、事件地点、事件摘要等信息。针对突发事件属性,黄超等[17]参照欧洲的TSO(tactical situation objection)编码,结合我国突发事件的特点,对突发事件案例属性进行了归纳。突发事件案例属性多种多样,在案例检索中不同类型的属性相似度计算方法也不一样。笔者以文献[17]的研究为基础,对已有突发事件案例库中的描述属性进行整理,根据属性类型将突发事件案例属性归纳为4种,如表2所示。
表2 突发事件属性类型
2.2 突发事件案例检索流程
笔者采用最近邻法的基本思想进行突发事件的案例检索,针对目标案例先进行信息抽取完成结构化处理,再以结构化的目标案例作为输入,通过计算目标案例与案例库中源案例的相似性,最终检索得到与目标案例最相似的案例(集),案例检索流程如图4所示。
图4 案例检索流程
其中,在进行文本属性相似度计算时,由于结构化的突发事件案例文本属性属于短文本,先利用WNCH方法计算文本中关键词的相似度,再采用文献[18]中的方法实现从词语相似度到文本相似度的计算,进而完成文本属性的相似度计算。
3 实验与实例分析
3.1 突发事件语料库构建
突发事件语料来源为:中华人民共和国中央人民政府网站应急管理页面、中国应急服务网、中国安全生产网、中国安全管理网等,均为影响力大、涉及范围广、及时更新、权威性高的突发事件新闻网站。采用文献[19]中的方法对数据进行结构化处理,得到满足案例检索要求的结构化案例库。
3.2 案例检索实验设置
为了对比有无文本属性对案例检索结果的影响,笔者设计了对比实验。
实验I:不包含文本属性的案例检索。共考虑6个属性,分别为事件时间、事件地点、经济损失、人员伤亡、事件等级、事件类型,采用模糊层次分析法得到对应的权重为{0.126,0.094,0.235,0.173,0.184,0.188}。
实验II:包含文本属性的案例检索。共考虑9个属性信息,分别为事件名称、事件时间、事件地点、经济损失、人员伤亡、事件摘要、事件类型、事件等级、事件原因,采用模糊层次分析法得到对应的权重为{0.120,0.080,0.060,0.150,0.110,0.133,0.120,0.117,0.110}。其中,事件名称、事件摘要和事件原因这3个文本属性采用笔者提出的WNCH方法计算属性相似度。
3.3 实例分析
选取“江苏连云港12·9重大爆炸事故”作为目标案例,目标案例的属性信息如表3所示,案例检索实验结果对比如表4所示,文本属性相似度计算结果如表5所示。
表3 目标案例的属性信息
表4 案例检索实验结果对比
表5 文本属性相似度计算结果
综合表4和表5的结果可知:
(1)两组实验相似度排名前5的案例中,不但存在3个相同案例(案例编号分别为485,188和501),而且所有检索出的案例均为爆炸、火灾类事故灾害案例,可见基于最近邻的属性相似度计算能够有效检索到相似的案例。
(2)两组实验中3个相同案例的相似度排序却不尽相同,表5则进一步给出了3个案例在事件名称、事件原因、事件摘要的相似度结果,不难发现:①案例485与目标案例最为接近,均为工业爆炸,且均涉及“苯”这个化学物质。②案例188的关键信息有“瓦斯”“煤矿”,与目标案例发生场景和原因均有明显区别,在实验I中案例188的相似度排名第一,而在实验II中案例188的相似度排名第三;同时,案例501属于非工业环境下的“火灾”事故,与目标案例的发生场景和原因也有明显区别,在实验I中案例501的相似度排名第二,而在实验II中案例501的相似度排名第五,说明无文本属性相似度计算的情况,无法有效识别两个案例中的关键信息区别。可见文本相似度的引入能够提取更多的有效信息,如事件原因,这也正是案例检索的重要依据。
综上可知,增加文本属性的案例检索能够精确、有效地获取案例中文本包含的关键信息,从而有效的案例检索、应急管理辅助决策提供坚实的语义基础。
4 结论
笔者针对突发事件案例的特点,在数值、符号、模糊属性相似度计算的基础上增加了文本属性的相似度计算,主要解决了两个问题:①在传统词嵌入模型中增加了Ngram和汉字的语义信息,同时融合了HowNet知识库,有效改进了突发事件案例属性短文本的词语语义相似度计算。②将文本属性的相似度计算引入到案例检索中,以最近邻法为基础,给出突发事件案例检索方案,丰富了案例检索中的属性信息,提高了案例检索的准确度。
笔者将自然语言处理领域内的技术和方法应用到应急管理中,为突发事件案例检索提供了更精准的解决方法,所提出的方法对文本处理、文本分析也具有一定的理论与实践意义。但突发事件案例难免存在属性缺失,笔者没有考虑属性缺失对突发事件案例检索的影响。下一步工作的研究重点是利用突发事件案例中的文本属性来弱化案例属性缺失对案例检索结果的影响。