句子相似度计算方法在教学改革中的研究应用
2015-06-02刘松平
【摘 要】在教学改革中,为了提高课程教学的质量,诸多学校研究、开发了相关课程的智能答疑系统。学生通过该系统,可以查找学习该课程过程中遇到的相关问题,增加对该课程知识的理解。传统的智能答疑系统存在答案不精确、答案信息不全等问题,其原因主要是机器在识别学生提问的问句过程中,对问句理解不够,不能真正明白学生问句的含义,从而导致搜索、查询的答案存在较大的误差。本文提出一种精确的句子相似度计算方法,从关键字特征和句子的词义距离相似度两个方面进行考虑,将两变量视为句子的二维向量,通过获取句子的二维向量值,从这两个方面进行比较、分析,得到句子的相似度。通过这种改进方法可以获取更多的信息,更加准确地描述句子的内容,从而更加精确地查找问句的答案。
【关键词】句子相似度 智能答疑系统 关键字
在《移动编程基础》课程教学过程中,存在教师、学生之间面对面的信息交流时间不够,效率低下等问题,学生在学习过程中,积压的问题不断增加,导致该课程教学质量一直没有明显地提升。传统的改进方式是通过引导学生进行网络搜索,在网络上查找相应的问题答案。这种方式存在答案丰富多彩、不能准确定位、回答问题的用户杂乱无章、对问句的理解不够、答案不专业等问题,从而误导学生学习。也有部分高校自行开发相应的智能答疑系统,早期的答疑系统基本上是通过简单的形式实现答疑过程,这些系统在人工智能方面存在一定距离,且不具备专家系统技术的应用。传统的答疑平台在进行问题关键词检索时,存在答案精确度不够、答案不全、查询速度较慢等问题,没有很好地引导学生正确理解课程中的相关知识点,从而影响该课程的教学改革和教学质量。
针对上述种种问题,开发出一个能精准定位、正确理解学生提问的语句的含义,查找正确、全面的问题答案的全新的智能答疑系统已迫在眉睫。本文提出一种精确的句子相似度计算方法,从关键字处理和句子相似度两个方面进行了改进。对关键字、词义距离进行相似度计算,对问句进行分解预处理,能够有效提高答案的准确度和查询速度,结果准确度提高了39%,信息响应时间大大缩短,取得了不错的效果。
一、基于关键字的计算方法
将《移动编程基础》课程中所有出现的词语分为停用词库与通用词库,使用比较频繁的词语存放在通用词库中,而一般很少使用或停止使用的词语存放在停用词库中,这样方便关键字的计算处理。
基于关键字特征的句子相似度计算是通过比较两个句子中的所有有效词,构成问句的向量空间,然后计算两个句子的向量,求出两个向量夹角的余弦值,将此余弦值作为句子相似度。对于任意给出的两个句子S1和S2,统计两句子的有效词,求出构成该句子的向量空间为V=(x1,X2…X2),其中Xn为有效词。句子S1的向量V1=(W1,W2…Wn),其中Wn为有效词Xn在句子S1中出现的次数。句子S2的向量V2={∮1,∮2…∮n},其中∮n为有效词Xi在句子S2中出现的次数。则两个句子的相似度为:
这样的方法非常方便地将词表面的信息融合到计算公式中,特别是针对相关性小的语句,效果非常好。
二、基于词义距离的句子相似度计算
计算句和句之间的相似度的关键是要获取句中词义所表达的内容,具体方法如下:
设两个句子M 和N,M包含的词为M1.M2……Mm,N包含的词为N1.N2……Nn,则词Mi(1≤i≤m)和Ni(1≤i≤n)之间的相似度可用Similar(Mi,Nj)表示。这样就得到两个句子中任意两个词的相似度,M 和N句子之间的语义相似度如下公式:
式中ai与bi的含义如下:ai=max(Similar(Mi,N1),…,Similr(Mi,Nn),bi=max(Similar(Mi,N1),…,Similar(Mi,Nn)。
相似度计算的一个难点是要获取句子中词语更加深层的内容信息,在表面不同的情况下通过一些手段将句子深层的、意义相同的词语挖掘出来,便于相似度的计算。一旦出现词典范围缺失该项内容的情况或者词义代码的丢失,将会给相似度计算带来误差。
句子相似度是智能答疑系统中的主要桥梁,是连接用户表达意思与系统理解含义的通道。采用合理的句子相似度计算方法,可有效地增加系统搜寻答案的精确度,为学生提供精确、全面的答案保驾护航。本句子相似度计算方法在智能答疑系统中的应用取得了很好的效果,查询的答案完全能满足学生的需要,该系统受到学生的一致好评。
【参考文献】
[1]李佳媛.汉语句子相似度计算技术及其应用[G].北京信息科技大学,2013(6).
[2]刘松平.智能答疑平台的研究与实现[G].湖南大学,2013(4).
[3]薛慧芳.句子相似度计算理论及应用研究[G].西北大学,2011(7).