APP下载

中小学藏语文问答系统中答案抽取算法的研究

2016-04-11群毛措安见才让

电脑知识与技术 2016年4期
关键词:藏语文电脑向量

群毛措+安见才让

摘要:该文提出了中小学藏语文问答系统中答案抽取算法,即采用了基于关键词的相似度算法来抽取最佳的答案。

关键词:相似度;答案抽取

中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2016)04-0101-01

1 概述

目前,国内外有很多相对成熟的英文问答系统和中文问答系统,学习中英文方面的内容很方便,但到目前为止还没有藏语文问答系统方面的研究成果,查找藏语文方面的内容必须借助书本或咨询的方式来完成,那样给教师的教学和学生的学习也带来了不便,所以研究这方面的内容是很有必要的。

2 中小学藏语文问答系统

中小学藏语文问答系统是中小学藏语文课本为主的问答系统,它主要由问题查询、问题录入和问题修改等主要有3个模块。每个模块的主要作用是:问题查询模块主要是用户的问题提交到问答库中并从中抽出最佳的答案返回给用户。问题录入模块主要是向问答库中添加新的问题。问题修改模块主要是问答库中已有的问题或答案进行修改和补充。

3 中小学藏语文答系统中答案抽取算法

3.1关键词抽取

3.2基于关键词的相似度计算

藏文句子是由一组不同含义的单词、格助词和虚词组成。藏文句子就是一个字符串,经过分词处理后,把句子看成词的线性序列,根据句子中的单词出现的频率等相关信息来计算句子的相似度。在向量空间模式中,把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题,两个句子的相似度可以用两个空间向量之间的夹角来衡量,夹角越小相似度越高。公式如下:

(1)

我们把句子看成是由许多相互独立的单字所组成,两个句子进行分词和去除一些冗余信息后,得到S1

通过公式(1)的计算,能得出两个句子之间的相似度。

4 实验结果分析

表1 藏文问答系统中答案抽取测试结果

[问题\&问题数/个\&正确应答/个\&错误应答/个\&没有应答/个\&准确率%\&召回率%\&实验1\&900\&655\&67\&178\&65.5\&80.2\&实验2\&500\&315\&64\&121\&63.1\&75.8\&]

(下转第106页)

(上接第101页)

实验结果表明:这种算法虽然能抽出答案,但句子之间的同义词过多时,相似度依然不高,原因是没有考虑到句子的语义信息,该系统还对解决实际问题还未考虑周全,有待进一步完善。虽然目前该系统还不够完善,但是已经为中小学藏语文问答系统中答案抽取的研究奠定了一定的理论基础,该方法完全可行。

参考文献:

[1] 余正涛,邓锦辉,韩露,等.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(sl):579-586.

[2] 秦兵,刘挺,王洋,郑实福,等. 基于常问问答集的中文问答系统研究[J].哈尔滨工业大学学报,2003,35(10):1179-1182.

[3] 安见才让.藏语句子相似度算法的研究[J].中文信息学报,2011,25(4):110-114.

[4] 蔡东风,白宇,于水. 一种基于语境的词语相似度计算方[J].中文信息学报,2010,24(3):24-28.

猜你喜欢

藏语文电脑向量
电脑
电脑节来了
电脑能够自己思考吗?
向量的分解
聚焦“向量与三角”创新题
向量垂直在解析几何中的应用
强化学习及其在电脑围棋中的应用
向量五种“变身” 玩转圆锥曲线
藏语文信息监测关键技术初探
通过电影和网络来普及与传承藏语文知识的平台设计