APP下载

中国少数民族语文百科知识问答系统设计

2020-07-14韦韧

软件导刊 2020年1期

摘 要:我国是语言文字资源大国,为了增加各民族人民特别是青少年对党和国家民族语言文字政策的了解,提出构建中国少数民族语文百科知识问答系统。该系统采用基于FAQ( Frequently Asked Questions)库的问答系统,主要通过“问题答案”成对的形式将常见问题及其对应答案组合在一起作为问答系统的知识库。通过中国少数民族语文百科知识问答系统,可以宣传党和国家民族政策,增进各民族之间的相互认识和理解,为促进各民族交往交流交融奠定知识基础。

关键词:中国少数民族语言文字;百科知识;问答系统

DOI: 10. 11907/rjdk.191292

开放科学(资源服务)标识码(OSID):

中图分类号:TP319

文献标识码:A

文章编号:1672-7800(2020)001-0200-03

0 引言

中国互联网络信息中心公布的《第43次中国互联网络发展状况统计报告》…显示,截至2018年12月底,中国网民规模达8.29亿人,互联网普及率为59.6%。这表明,互联网已成为人们获取信息的主要渠道和现代社会交流的重要工具。目前,大部分网站只是发布信息,几乎不涉及人机交互,这种类型的网站被称为信息展示类网站。随着网站内容的不断增多,网站信息量也越来越大,当人们想要去寻找某条历史信息时,需要按关键词搜索后顺序浏览整个搜索结果目录,大部分情况下,要打开页面浏览后才能找到信息,这种检索方式极大降低了信息查询效率。同时由于网站页面布局设计,总会有处于页面边角的信息不容易被人们发现,浏览信息时会产生遗漏。尤其是对于一个初次接触该网站的人而言,其并不熟悉网站整体布局,想要寻找一条有用信息,往往事倍功半。针对这种情况,目前大型综合网站都提供了搜索功能,利用全文索引技术对站点内容进行处理,通过关键词匹配信息。这样存在两个问题:一是检索关键词必须准确,当用户输入一个不准确的关键词时,可能得到的搜索结果与理想结果差别很大;另一个问题是检索返回的结果是一个网页链接,用户仍然需要打开每一条链接,浏览每一个网页寻找所需信息。

针对以上问题,问答系统( Question Answering System,QAS)应运而生,其最大优点在于回答问题的准确度更高,人们能够更快更精准地获取信息。

1 国内外研究评述

1.1 问答系统构建现状

OAS是信息檢索系统中不同于传统搜索引擎的一种高级形式,它直接用简洁.准确的自然语言回答用户用自然语言提出的问题。国外已开发出许多较为成熟的问答系统。Start问答系统由麻省理工学院开发,是全世界第一个面向网络的问答系统,该系统仅支持英文提问,只能回答某些特定知识领域的简单问题[2]。Answer Bus问答系统由密歇根大学开发,该系统可以使用多种语言进行提问,内容涉及多个知识领域[3]。Watson问答系统由IBM实验室开发,该系统以非结构化或半结构化的自由文本作为答案的抽取对象,可梳理人类语言并在文本消息之间进行推断,具有与人类相似的准确性,但检索速度更快速[4]。国外问答系统还有苹果公司开发的Siri[5]、微软公司开发的Cor-tana[6]和亚马逊公司开发的Alexa[7]。中文问答系统及其相关技术的研究时间相对较短,目前国内较成功的在线问答系统是知乎社区[8],还有百度公司研制的小度[9]。由于中文的特殊性,国外针对英文的自然语言处理技术无法直接借鉴,中文自然处理技术目前还有待改进,同时还缺少一个相对成熟统一的中文问答系统评估标准。

1.2 中国民族语言文字数据库构建现状

中央民族大学刘岩[10]详细介绍了语音语料库的特点和作用、工作步骤及建库过程中遇到的难点;中国社会科学院民族学与人类学研究所呼和等[11]探讨了语音声学参数数据库编制方法中的语料、功能字段和声学参数的设计等问题;云南民族大学陈锡周[12]、云南大学陈雁婕等[13]介绍了云南少数民族语言文字文献数据库;新疆师范大学齐向伟等[14]开发出维吾尔语有声数据库资源管理平台;西藏民族大学陈小莹[15]设计了藏文百科知识自动问答系统;西北民族大学孙浩蒸等[16]构建了基于FAO库的藏文问答系统;青海民族大学群毛措、安见才让[17]提出了藏文问答系统中答案抽取的算法,采用基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法抽取最佳答案;青海师范大学柔特[18]提出了基于藏文疑问虚词的问句分类方法。2008年国家语言文字工作委员会启动了中国语言资源有声数据库建设,在国家层面,按照统一方法调查、采集、整理、加工、保存汉语及少数民族语言资源[19]。总体而言,我国现有少数民族语言数据库专业性强,多数是语言学研究中某一个科研方向的专项数据库,或者是某一特定区域的语言数据库,服务对象是科研人员,并只针对建库者及相关科研人员开放。

2 系统构建现实意义

民族平等和语言平等是新中国民族政策的根本出发点,民族语言文字是各民族的重要标志和文化特征。通过该问答系统,可以使各民族人民特别是青少年增加对党和国家民族语言文字政策的了解,展示我国多民族融合发展的历史,宣传党和国家民族政策,增进各民族之间的相互认识和理解,为促进各民族的交往交流交融奠定知识基础。

长期以来,少数民族语言文字的信息化水平远低于汉语言文字,科学研究成果社会普及度不高,缺乏有新意和创新手段的科普成果。该问答系统对促进民族语言文字的科学普及具有重要社会价值。

信息化和数字化是当今社会发展的必然趋势,语言是信息天然的载体和工具,人类在社会交往中主要是通过语言文字进行,语言文字信息化是整个社会信息化的基础。该问答系统顺应互联网时代发展需求,创新传播和应用方式,在已有调研成果的基础上,建立声、文、图、像一体化的中国民族语言文字数据库,以新型科研成果形式丰富民族语言文化等方面的研究成果,将研究成果进行可视化方式展示,向国内外对中国民族语言文字感兴趣的人们全面系统地传播中国少数民族语言文字相关知识。

该问答系统便于动态更新民族语言文字知识,及时修正数据库中的数据,使用者也可以方便、快捷地进行中国民族语言文字资料的查询、检索。

3 系统架构设计

知识库( Knowledge Base)是一种汇集知识的智能系统,它利用计算机存储和管理某一类特定领域的知识,并利用知识解决该领域出现的问题。知识库也可说是知识的集合.而知识通常包括知识概念、事实与规则。知识库与数据库既有差异又相互联系,两者可统称为信息库。知识库的发展前景是广阔的,新的课题不断涌现,例如,多级知识库及综合知识库、黑板结构、分布式知识库系统和多智能体协同工作系统研究等[20]。

中国少数民族语文百科知识问答系统采用基于FAO( Frequently Asked Questions)知识库的问答系统,主要通过“问题答案”成对的形式将常见问题及其对应答案组合在一起作为问答系统的知识库。当用户提问时,系统可以通过关键词匹配的方式在FAO知识库中快速找到与用户问题相似的问句,将对应答案反馈给用户,这样就不需要再经过信息检索、答案抽取等许多复杂的处理过程,是一种便捷、准确的问答途径。FAO知识库的问答系统处理问题过程简单,实现起来相对容易,搜索结果比较合理,系统响应时间相对较短。

问答系统包括4个模块,各模块功能如下:

(1)问题处理模块。该模块处理流程主要包括中文分词、用户关键词提取、用户关键词标准化和用户词汇词义扩展等,将用户问题转化成关键词列表。问题处理模块还需要依赖于一些知识库,如中文分词词典、同义词词典、语言学文字学专业术语词表等。

(2)问题检索模块。该模块主要任务是计算用户问题与问题库中问句的相似度值。该模块使用的语句相似度算法是系统的核心算法。

(3)答案抽取模块。该模块主要任务就是将候选问题集中问句按它与用户问句的相似度值从大到小的顺序进行排序,同时判断问题库中的问题是否是用户要问的问题(通常根据一个预先定义的相似度阈值进行判断),如果是,则直接返回问题对应的答案;如果不是,则返回与用户问题相似度值较高的问题答案,再让用户进一步自行判断选择最优答案。

(4)FAQ知识库模块。FAO知识库是问答系统中重要的基础知识库。FAO知识库实际上就是一个“问题答案”对集合。由于FAO知识库模块是整个问答系统的核心模块,知识库的构建应尽可能全面,列举出的问题答案对越多,问答系统的准确度就越高。

4 系统功能设计

本文主要利用信息抽取、信息检索和自然语言处理等相关技术构建基于中国民族语言文字百科知识库的答问系统。具体包括以下3个方面:

(1)收集中国民族语言文字基本知识,创建FAQ知识库。FAO知识库包含3个子知识库,分别是中国民族语言文字政策知识库、中国民族语言基本知识库、中国民族文字基本知识库。知识库的数据存储形式分为文本、图片.音频和视频4种。中国民族语言文字政策FAO知识库包含建国以来的国家民族语言文字法律法规和各地区民族语言文字法律法规,提供原文链接。中国民族语言FAO知识库包含中国境内的民族语言种类、民族语言基本分布、使用人口、使用状况、语言的简要研究情况,并提供分布地图展示、常用句的音频及歌曲视频。中国民族文字FAO知識库包含中国境内的民族文字种类、各民族文字的基本使用状况、文字的简要研究情况,并提供文字样例、文献图片。

(2)利用信息检索技术完成针对中国民族语言文字基本知识库问答条目的搜索引擎,提供基于关键字的基本查询功能。根据用户提问,答案首先以文本形式出现,然后根据检索内容有多种表现形式。比如用户搜索某一民族语言,首先出现的是针对民族语言的文本简介,点击语音标记,即可播出与之相对应的语言发音。如果用户搜索某一民族文字,首先出现的是该民族文字的文本简介,点击图片标记,即可弹出与之相对应的民族文字图片。

(3)基于模式匹配和相似度计算方法设计一个中国民族语言文字百科知识网络问答系统。现阶段,中文自然语言处理技术和语义理解技术都不够成熟,重难点主要集中在中文自然语言辨析理解、语句语义相似度算法优化、答案存储与分析等方面。尤其是语句语义相似度算法是一个亟待解决的问题,该算法设计的优劣直接决定着问答系统查询的召回率和准确率。

5 结语

本文研究并设计了中国少数民族语文百科知识问答系统,给出了系统框架设计思路及流程。其难点是FAQ知识库构建,主要依靠人工手动搜集整理问题答案对,对于小型知识库而言效果较好,但是对于信息量多、规模较大的知识库,则耗时费力,构建FAO知识库存在一定困难。中国少数民族语文百科知识问答系统是一个综合处理系统,还涉及许多信息处理相关技术,这有待后续全面深入研究。

参考文献:

[1] CNNIC.第43次中国互联网络发展状况统计报告[R].2019.

[2]MIT Info Lab. The START natural language question answering system[ EB/OL]. http: //start.csail.mit.edu/index.php.

[3] 密歇根大学.Answer Bus官方网站[EB/OL].http://www.answerbus. com/.

[4] IBM实验室.IBM Watson官方网站[EB/OL].https://www.ibm.com/developerworks/cn/cloudlibrary/cl-watson-films-hluemix-app/.

[5] 苹果公司(中国).Siri官方网站[EB/OL].https://www.apple.com/cn/ siri/.

[6] 微软公司(中国).Cortana官方网站[EB/OL].https://www.microsoft.com/zh-cn/windows/Cortana.

[7] 亚马逊公司.Alexa官方网站[EB/OL].https://www.alexa.com/.

[8] 北京智者天下科技有限公司.知乎社区官方网站[EB/OL].https:,,www.zhihu.com/.

[9] 百度公司.小度官方网站[EB/OL].https://xiaodu.haidu.com/saiya/xiaodu-home/index.html#/.

[10]刘岩.关于中国少数民族濒危语言语音语料库的设计[J].中央民族大学学报:哲学社会科学版,2006( 4):133-136.

[11]呼和,哈斯其木格,周学文,等.中国少数民族语音声学参数数据库的研制方法[J].全国人机语音通讯学术会议,2009.

[12] 陈锡周.云南少数民族语言数据库[J].云南民族学院学报:哲学社会科学版,2003,20(1):112-114.

[13] 陳雁婕,闵红云,袁帆.论云南地方少数民族文字文献数据库构建[J].云南民族大学学报:哲学社会科学版,2005,22(1):148-151.

[14] 齐向伟,玉素甫·艾白都拉,艾孜尔古丽.基于语言资源理念的维吾尔语有声数据库构建研究[J].数字技术与应用,2011(7): 48-49.

[15] 陈小莹.藏文百科知识问答系统的设计与研究[J].智能计算机与应用,2017,7(4):48-50.

[16]孙浩蒸,于洪志,苏敏.基于知识库的藏文问答系统研究[J].西北民族大学学报:自然科学版,2015,36(2):45-50.

[17] 群毛措,安见才让.藏文问答系统中答案抽取算法的研究[J].电子技术与软件工程,2016(6):158.

[18]柔特.藏文问答系统中问句的分类方法研究[J].计算机工程与科学,2015 .37(7):1393-1398.

[19]李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(4):356-384.

[20]何守才.数据库百科全书[M].上海:上海交通大学出版社,2009.

(责任编辑:孙娟)

作者简介:韦韧(1982-),博士,中国社会科学院民族学与人类学研究所助理研究员,研究方向为民族语文信息化。