APP下载

问句相似度计算综述

2014-12-05贾明静董日壮段良涛

电脑知识与技术 2014年31期

贾明静 董日壮 段良涛

摘要:近年来,基于常见问题集的问答系统被广泛的应用到各个领域,而问句相似度计算是基于常见问题集的问答系统的核心模块,因此问句相似度计算方法变得越加重要。该文对问句相似度计算方法进行了综述,分别介绍了各个方法,同时对比了各个方法,最后指出了今后本领域的研究方向。

关键词:问句相似度计算;语义相似度;问答系统;常问问题集

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)31-7434-04

Abstract: Recently, Question Answering Systems based on FAQs have been widely used in many domains. And the question similarity computation is one of the most important modules in the system. In this paper, question similarity computation methods are reviewed and compared. And the trend of development is indicated.

Key words: question similarity computation; semantic similarity; question answering system; FAQs

1 概述

在微信、运营商客服、淘宝客服等特定领域的实际应用中,最常使用的是基于常问问题集(Frequently Asked Questions, FAQs)的问答系统。基于常问问题集的问答系统将用户问句与常问问题集中问句进行相似度计算,选取最相似的若干候选问句返回给用户,因此,问句相似度计算的好坏直接影响着结果的好坏。近年来许多学者都对问句相似度计算方法进行了研究,并且取得了一定的成果。

2.3 混合方法

混合方法是近年来问句相似度计算方法研究的热门方向,混合方法是在词语方法或句法方法的基础上引入一些其他问句的特征,比如主题特征或者问句类型特征等,提高问句相似度计算的准确性。

?ari[c] 等人[3]使用了词语重叠方法、语义方法、句法结构方法等多种方法融合的方法,提高了问句相似度计算的准确性。为了提高问句相似度计算的准确性,熊等人[13]提出一种基于LDA的问句相似度方法,在词语语义方法的基础上引入了主题特征,将问句主题之间的相似度考虑到问句相似度计算过程中,最后使用加权平均的方法计算最终问句相似度值。强等人[14]针对问句的特点,引入了问句类别特征计算问句的相似度,问句类别反应了问句与答案之间的关联,同时使用词语语义和语法特征来衡量问句的相似度,在一定程度上提高了问句相似度计算的准确性。

3 方法分析比较

目前基于词语的方法、基于句法特征的方法和混合方法三种方法都有各自的优缺点,具体分析如下:

基于词语的方法是目前问句相似度计算最常使用的一种方法,因为其相对其他方法简单而且仅需一部语义词典即可,绝大多数情况下能够正确衡量问句间的相似度。但是由于其未充分考虑问句句法结构特征,不能很好处理共同包含较多关键词却表达不同意思的情况,比如“SHE的MV中的那只猫好看吗”和“SHE的MV好看吗”。

基于句法结构的方法能够解决由于基于词语方法未考虑其句法特征而错误计算问句间相似度的情况,在两问句句式结构相同或类似的时候,相比基于词语方法能够更加准确的判断问句间的相似度。但是,用户问句通常表达形式多样,句式结构通常不同,因此,基于句法特征的方法也有一定的局限性。而且,基于句法结构的方法通常都只考虑了句子主要成分,忽略了对问句更重要的修饰限定成分,无法区分“张杰的歌曲好听吗”与“林俊杰的歌曲好听吗”这种问题,虽然两问句都是评价歌曲,但是评价的是不同歌手的歌曲。

混合方法通常将基于词语和句法结构方法融合,同时使用两种特征衡量问句间的相似度,在一定程度上能够互相弥补词语和句法方法间的不足,当一种特征结果准确而另一种特征相似度结果与实际偏差较大时,通过两种特征的权重来平衡,达到较满意的结果。还有学者[13-14]通过引入问句深层的特征来提高问句相似度计算的准确率。混合方法通过多个特征从多方面来衡量问句间的相似度,相比基于词语和句法的方法更加全面、准确。但是这种混合的方法中总会有某个特征与实际相似度偏差较大的情况,因此权重的设定变得非常重要,直接影响着结果的好坏,而且不同特征的问题集上面的权重也不同。

总体来说,混合的方法由于从多个方面衡量问句间相似度,并且引入了问句本身的一些特征,因此其优于基于词语和句法的方法。

4 结束语

任何一种问句相似度计算方法都不能完全解决所有的问题,而且算法也没有绝对的好坏,因为其在不同的领域应用有着不同的表现。基于词语的方法简单而且计算速度快,因此有着广泛的应用。基于句法特征的方法在机器翻译等领域有着广泛的应用。混合的方法的研究也被许多学者所重视,且在问答系统中已经逐渐应用,问句主题和类型特征的引入能够更好的衡量问句间的相似度,混合的方法可以引入的特征还有很多,还有一定的提升空间,所以未来不失为问句相似度计算研究的趋势。

参考文献:

[1] Metzler D,Bernstein Y,Croft W B, et al. Similarity measures for tracking information flow[C]//Proceedings of the 14th ACM international conference on Information and knowledge management. ACM, 2005: 517-524.

[2] 钟敏娟,万常选,刘爱红.基于词共现模型的常问问题集的自动问答系统研究[J].情报学报, 2009 (2): 242-247.

[3] ?ari[c] F, Glava? G, Karan M, et al. Takelab: Systems for measuring semantic text similarity[C]//Proceedings of the First Joint Conference on Lexical and Computational Semantics-Volume 1: Proceedings of the main conference and the shared task, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation. Association for Computational Linguistics, 2012: 441-448.

[4] Mihalcea R, Corley C, Strapparava C. Corpus-based and knowledge-based measures of text semantic similarity[C]//AAAI. 2006, 6: 775-780.

[5] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

[6] Liu Q L, Gu X F, Li J P. Researches of Chinese sentence similarity based on HowNet[C]//Apperceiving Computing and Intelligence Analysis (ICACIA), 2010 International Conference on. IEEE, 2010: 26-29.

[7] Lavie A, Denkowski M J. The METEOR metric for automatic evaluation of machine translation[J]. Machine translation, 2009, 23(2-3): 105-115.

[8] Mitchell J, Lapata M. Vector-based Models of Semantic Composition[C]//ACL.2008: 236-244.

[9] 宋万鹏.短文本相似度计算在用户交互式问答系统中的应用[D].合肥:中国科学技术大学,2010.

[10] 李彬,刘挺,秦兵,等.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2004, 20(12):15-17.

[11] Oliva J, Serrano J I, del Castillo M D, et al. SyMSS: A syntax-based measure for short-text semantic similarity[J].Data & Knowledge Engineering, 2011,70(4): 390-405.

[12] Chang J W, Lee M C, Wang T I, et al. Using grammar patterns to evaluate semantic similarity for short texts[C]//Computing Technology and Information Management (ICCM), 2012 8th International Conference on. IEEE, 2012, 2: 548-553.

[13] 熊大平,王健,林鸿飞.一种基于 LDA 的社区问答问句相似度计算方法[J].中文信息学报, 2012,26(5): 40-45.

[14] 田卫东,强继朋.基于问句类型的问句相似度计算[J].计算机应用研究,2014,31(4): 1090-1093.