壮族非物质文化遗产限定域问答系统
2019-12-02吴宇豪陈昕雯计慧芳梁叶
文/吴宇豪 陈昕雯 计慧芳 梁叶
1 文献综述
1.1 研究背景
随着信息技术的不断发展,微软小娜、苹果的Siri、GoogleNow等个人智能助理应运而生,主要利用问答方式便利人们日常生活。
本文实现一个基于机器学习的壮族非物质文化遗产限定域知识问答系统。主要通过搜集并整理广西壮族非物质文化遗产的相关内容,将壮族非物质文化遗产数据分类整理后录入数据库,并对壮族非物质文化遗产的知识进行自然语言处理,并根据问句类型构建广西壮族非物质文化遗产的问答模型。最终实现壮族非物质文化遗产知识问答系统。
1.2 国内外研究现状和发展
目前,问答系统备受关注并且具有广泛前景。1993年,START是世界上第一个基于网络系统的英文自然语言将简短而非冗长的语句返回给用户。
国内问答系统起步较晚,于20世纪20年代开始系统进行基于中文问答系统的研究。但中文自然语言较英文而言,其句法结构更为复杂,语义表达更为灵活,处理起来更为困难,无法直接参考国外已有技术和研究成果。其次,国内缺乏丰富的原料库、知识库以及一整套完整规范的评测标准及体系。
2 设计方案及研究内容
2.1 设计方案
2.1.1 问句集的构造
问句是问答系统设计的基础,通过问句的种类和特征,我们才能够准确的从数据表中将对应的数据抽取出来,返回给提问者。问句集的构造的基础便是壮族非物质文化遗产数据表,在数据表的各个字段的基础之上构造问句,可以保证问答系统的准确性和一致性。构造问句集分为三步:
(1)整理每个数据表的字段集合W;
(2)对字段集合W中的每个字段的内容进行问句构造;
(3)将所构造的问句集进行同义句扩充。最终得到完整问句集合Q。
2.1.2 问句集句型分类
我们根据问句集中所得到的结果分析得到以下两大类句型,共分为以下五种。
(1)总体类句型。①总体概述类。②条件概述类。③最值概述类。
(2)单项类句型。①单表类。②多表连接类。
2.2 主要研究内容
2.2.1 中文分词及其算法
问答系统的研究第一步要做的处理就是对于用户输入问句的分词处理,将问句加以分词,得到句子中所有分词所得词汇的集合S,之后再通过词性标注进一步判断哪些词是关键词,哪一些词是辅助词。我们将二者分到两个集合当中,一个是关键词集合,另一个则是辅助词集合。之后根据辅助词和问句类型判断属于何种问句,而关键词集合则是用于识别用户问句中的条件,问题类型及目标答案属性,便于在答案抽取过程中准确构建查询语句,进而得到较高正确率的结果。
关键词集合和辅助词集合的构造是否准确将会影响接下来的处理过程以及最终得到的答案,由于本项目是围绕壮族非物质文化遗产的知识进行问答,从而用到的中文分词工具必须具备较强的命名体识别能力,才能够将问句中的核心部分的词汇分割出,使后续处理工作中降低问答错误率。
2.2.2 问句分析
在问句分析阶段需要就我们所收集到的现有的壮族非物质文化遗产的相关文献记录,以及非物质文化遗产的传承人等信息构造可能存在的问句。之后,我们再对收集好的问句集进行分析和处理,共分为三步:
(1)问句集分词处理;
(2)问句集句型分类;
(3)构造问句集中每个问句对应的关键词集合和辅助词集合。
2.2.3 答案抽取
通过对用户输入的问句进行分析,构建SQL查询语句,连接数据库,对壮族非遗数据模块的数据进行查询,进而得到与问句相匹配的数据(记录)作为候选答案,然后再根据问句类型及目标答案类型加以筛选作为最终结果输出。
3 总结
本文首先介绍了问答系统的发展现状,目前国内的中文问答系统不断发展,但在非物质文化遗产知识上却少有应用。本文就壮族非物质文化遗产的知识问答的研究过程做了详细描述,通过系统的开发实现总体上实现了壮族非物质文化遗产限定域知识问答系统的功能需求。
本文所做的主要研究工作如下:
(1)研究和学习问答系统的处理流程;
(2)对壮族非物质文化遗产的文献资料进行收集和整理分类;
(3)问句收集和构造,对问句进行分类;
(4)根据问句类型归纳SQL查询语句的构造方法,精准提取答案。