藏文百科知识问答系统的设计与研究

2017-09-18陈小莹

智能计算机与应用 2017年4期

关键词：藏语

摘要：目前国内的研究基本上都是中文自动问答系统的研究，关于藏文问答系统的研究还处于探索阶段，基于此本文计划参照中英文知识问答系统的设计方法，建立藏文百科知识库，在句法分析的基础上，设计藏文百科知识的自动问答系统。

关键词：藏语；百科知识；问答系统

中图分类号：TP391

文献标志码：A

文章编号：2095-2163（2017）04-0048-03

0引言

随着国家对藏区信息化基础建设投入力度的加大以及藏区经济的快速发展，特别是随着互联网等新型通讯方式的出现，网络中以藏文为信息载体的内容也在飞速增长，越来越多的藏文网站、邮件和论坛等文本信息在网络上出现，然而面对呈海量态势发展的各类藏文数据信息，用户很难快捷方便地分辨出颇具价值的实用性输出显示结果。面对这种问题，就需要计算机不仅能够提供针对用户问句的相关信息截取，还要能够自动分析实现对用户信息需求的精准解读，然后给出最接近用户需要的参考性答案内容。虽然目前存在的搜索引擎能够在一定程度上推进藏族用户信息需求的研究进展，但是由于搜索引擎只是简单地搜集与用户问句相关的所有信息，因而用户还需要从这些返回信息中准确定位到自己需要的信息。然而，利用搜索引擎需返回的相关网页太多，而且还需要用户具备一定的信息检索能力，同时更需要使用关键词的组合来表达查询需求，而无法直接使用自然语言来进行检索查询，这对于藏族用户来说也是一项亟待关注重视的新挑战，因而使用起来较为不便。目前许多藏文信息处理的研究者也正在考虑如何解决这种藏族用户面对海量数据却无法有效处理的问题，本文正是基于这一需求，提出通过建立藏文百科知识库，利用用户问句和知识库中问题的匹配来抽取与用户需求最接近的答案，从而实现藏文百科知识的自动问答。

1研究现状

目前对自动问答系统的研究，相对成熟的问答系统有麻省理工大学人工智能实验室的STARTSO系统、密歇根州立大学的AnswerBus系统等。其中，STARTSO系统基于互联网访问设计，可通过精心构建的知识库来自动地回答资料库中一些比较简单的问题，但却不能借助互联网自行扩充内部的知识含量[1]。而AnswerBus系统支持多种语言的访问，是多领域的自动问答系统，自2011年上线以来，已经回答了许多用户的問题。此外，Ferrucci等则设计展示了一个深度问答系统，该问答系统被称为“Watson”，通过将问句分解成线索和子线索来研究表述关于问句的理解，并将该深度问答系统对问句的查询分解成对这些线索的查询。Yahy等又继而提出首先将问句划分成多个短语，然后动态生成这些短语与知识库中实体、属性关系的映射，最后通过线性规划算法实现短语与知识库映射时的消歧处理。Pythia等人又进一步提出一个基于本体的依赖问句深度语言分析的系统，该系统首先需要手动构造本体语义词典，而后再利用构建的语义词典来进行问句语义理解[2]。

国内也有不少科研院所正在开展问答系统的研究，比如复旦大学、中科院、哈工大等。其中，哈尔滨工业大学开发了基于常用问题集的中文问答系统，该系统首先根据用户的提问建立一个候选问题集，然后通过计算句子语义相似度，在候选问题集中找到相似的问句，并将答案返回给用户[3]。而中科院的NKI知识问答系统即以NKI 知识库为基础，可以向用户提供多个领域的知识服务，并且允许用户可以自由方式进行提问并向用户返回准确的答案。除此之外，还有中国科学院计算机技术研究所王树西等人开发的《红楼梦》中人物关系专家系统、百度知道以及北京理工大学信息科学技术学院樊孝忠等人开发的银行领域汉语自动问答系统BAQS等也都取得了不错的效果[4]。

综上现状分析可以看出，国内关于中文自动问答系统的研究比较多，但是基于藏文的研究主要集中在藏语的句法分析和词性标注上，关于藏文问答系统的研究还处于探索阶段。基于此，本文拟将参照中英文知识问答系统的设计方法，建立藏文百科知识库，在句法分析的基础上，设计实现藏文百科知识的自动问答系统。

2藏文百科知识问答系统的设计实现

2.1系统总体设计思路

目前，自动问答系统答案来源有2种，一种是来源于预先构建的知识库，另一种通过搜索引擎从网络上获取[5]。具体来说，第一种方式主要通过先期建立的相关知识的问答对知识库，再利用用户问句和知识库中问句的相似性比较，得到与其最相近的问句，进而可将该最相似问句的答案提供给指定需求用户。这种方式比较依赖于知识库的构建，但是多会获得较高的查找的精准度和效率。第二种方式则是利用目前网络上的资源来综合寻求问题的解答，首先利用百度百科、百度知道、维基百科等网络知识源，其所采取的策略是使用问句中的关键词语在搜索引擎上进行搜索，获取与问句相似度最高信息条目的对应链接以及摘要，然后获取链接相关联的网页中的摘要所在段落或模块，作为答案数据而得集成配送返回[6]。这种方式借用搜索引擎的方式在网络资源中查找，因此在查找结果后还需要用户自行判断其所需要的信息，不仅查找的效率较慢，而且也无法保证回答内容的准确度。

由于本文是关于藏文百科知识自动问答系统的顶层规划设计尝试，且关于藏文搜索引擎的研究迄今仍较为少见。所以本文主要研究基于知识库的藏文百科知识问答系统的设计，通过尽可能地理解用户需求并在知识库中查找与其最相似的问句，从而得到用户需要查询的信息答案。综合前述过程分析，本文将有针对性地提出语义扩展的智能问答系统，可得主要设计思想论述如下：

首先搜集整理藏文百科内容的问答对，创建基于不同类型的藏文百科知识库，通过知识库问句的分解整理，获得知识库中问句的特征表示。然后针对用户问句通过自动分词、问句类型分析和关键词提取，建立设定用户问句的语义特征，再通过用户问句和数据库中问句语义的相似性比较，最后实现最相似问句的获取并将其对应的答案输出给指定目标用户。endprint

2.2系统流程

藏文百科知识问答系统采用模块化设计，从功能上可以分为知识库管理模块、用户问句预处理和分析模块、答案抽取模块3个主要模块。其中，用户问句预处理模块主要围绕问句的自动分词、词性标注以及功能词的过滤展开设计；知识库管理模块是系统执行自动问答的基础，也是该系统的重点关键研究部分，主要实现的是百科知识库问答句的添加和修改；用户问句分析模块可以发挥由问句到带标记权值的词串特征的转换作用；并可根据问句中的虚词判定问句类型；而答案抽取模块则是基于用户问句和知识库中问句的相似度比较，利用结构和语义上的相似度比较，查找最相似的问句并提取出对应答案的研究处理过程。研究中，系统运行流程可做如下内容阐释与详述。

1）首先搜集整理不同类别的藏文百科知识问答对，完成不同类别基础数据库的建设。再利用各类别搜集的数据语料，建立类别特征词库。然后针对问句进行分词、词性标注和停用词处理，建立问句关键词库。针对问句关键词库中的词条，通过语义扩展的方式构建标准问句关键词的语义网络，按照问句关键词建立关键词索引库，为分析与获得提问语句的相似度奠定先期基础准备。

2）对用户的自然语言问题，在问句预处理模块中，通过分词处理和词性标注模块实现用户问句的词串表示，再利用停用词过滤功能剔除与语义无关的功能词，以特征词串来描述用户的提问意图。

3）在类别特征词库中寻找用户问句所属类别，设定类别判断阈值，利用词向量之前的相似度计算，获取用户问句与各类别特征词的相似性，取相似度值大于判断阈值的类别属性按照相似度大小进行排序，相似度值最大的类别则为问句所属类别。若相似度值不满足类别判断阈值，系统将自动提示用户问答库中并不涉及该类别问题。

4）将已确定类别的用户问句与该类别知识库中的问句进行相似度计算。相似度计算只需要计算用户问句关键词和关键词索引库中的词条之间的相似度，然后将所有该类别中问句的相似度值叠加，为防止用户问题与知识库中问题的差异过大导致所选答案与用户查找内容完全不相关的情况发生，系统会在匹配之前提前设定相似度阈值，只有相似度达到阈值的问句才能拓展转入答案的抽取[7]。对于超出阈值的相似问句，选取相似度最大的前n个问句组成知识库问句集。若不存在大于阈值的相似问句，此时系统自动提示用户登录，通过专家回答实现问题的人工解释，并将当前所提问题添加在知识库中。

5）根据问句相似度值提取问句集对应的所有答案，并将答案结果倒排反馈给用户实现问句的自动解答。

2.3关键技术实现

2.3.1知识库管理模块

在该模块中，主要包括类别特征词库、关键词索引库和停用词库的维护管理。知识库的创建管理是成功达到研究目的的有效技术策略。本文在参考中文百科知识库构建方法的基础上，制定藏文百科知识库的建库标准，通过人工采集和网络搜集的方式收集整理藏文百科知识问答对，再通过语义扩展的方式搭设标准问句关键词的语义网络，完成基础数据库的建设。良好的自动问答系统必须要以一个内容丰富准确的资源库为基础，百科知识库的质量及数量直接影响到自动问答系统的性能，因此在知识库管理模块中，设定知识库内容的动态更新，可以手动操控知识内容的添加、编辑和删除功能，以便实现对于藏文百科知识内容的智能添加和修改。

2.3.2问句分析模块

问句分析模块主要包括问句预处理和问句分析两部分。预处理部分通过分析藏文文本特征以及本文对于问句特征数据的需求，通过分词、词性标注、停用词过滤实现用户问句的特征化表示。分词的功能效果主要根据文献[8]提出的基于统计与规则结合的方式展开设计，然后利用词性判断来获得词性标注。停用词库主要是针对藏文问句中存在的众多无实际语义的符号、虚词等功能词。将藏文文本中包含的无语义符号和藏语停用词分别进行过滤，构建藏文问句的词串表示，并在特征词向量空间的映射下，形成提问查询向量。根据藏文句子特征和问句的疑问虚词，确定问句类型，然后再根据词条的词性和与主题语义的相关性，确定不同词条的与主题内容的关联权值，最后根据关键词扩展规则得到包含权值的词串序列来表示问句特征。

2.3.3答案提取模块

在这一模块中，研究实现的是将问句之间的相似度判断。总地来说，问句相似度计算主要是判别用户所提的问句与知识库中标准问句之间的相似度，相似度越高，则所得出的答案越有可能就是用户所需要得到的答案。问句之间相似度比较主要是其中关键词的相似度计算。而相似度计算则重点是从词形、长度和词序这3个方面的相似程度进行考虑[9]。通过计算2个问句中词形相似度特征权值、长度相似性特征权值以及位置关系上的相似程度来计算得到问句之间的词序相似度特征权值。在此基础上，依据前述得到的相似度特征权值，用线性融合方法获得问句之间的相似度[10]。

3结束语

研究可知，自动问答系统已然成为当前自然语言处理中一个热门的方向。本文基于藏文百科知识库设计构建了一个基础的自动问答系统，该系统对于提升用户信息查询效率、优化检索结果以及问答系统知识库建设都将具有一定的积极有益的现实作用，但是由于藏文信息处理技术的限制，加之藏文百科知识内容收集的不完整，使得本文仍然存在诸多需要深度优化改进的地方，例如在藏文语义扩展的方法上，可以参考汉语的方式来丰富研发实践，本文仅仅利用词向量的相关性進行相似性判断，在判断结果上会有一定的误差。未来工作中，则将主要针对藏文百科知识内容的搜集完善和藏文关键词语义扩展方面继续开展下一步的探讨与研究。

参考文献：

[1] 郑实福，刘挺，秦兵. 自动问答综述[J]. 中文信息学报，2002，16（6）：46-52.

[2] 镇丽华，王小林，杨思春. 自动问答系统中问句分类研究综述[J]. 安徽工业大学学报（自然科学版），2015，32（1）：48-54，66.

[3] 刘里，曾庆田. 自动问答系统研究综述[J]. 山东科技大学学报（自然科学版），2007，26（4）：73-76.

[4] 王正华. 自动问答系统的研究与实现[D]. 绵阳：西南科技大学，2015.

[5] 邓昱. 中文问答系统中的答案抽取算法研究[D]. 北京：北京邮电大学，2009.

[6] 刘小宇. 基于语义理解的中文常问问答系统的研究[D]. 大连：大连理工大学，2006.

[7] 金砚硕. 中文问答系统中答案提取的研究[D]. 鞍山：辽宁科技大学，2008.

[8] 艾金勇，陈小莹，华侃. 面向Web的藏文文本分词策略研究[J]. 图书馆学研究，2014（21）：42-46.

[9] 周永梅，陶红，陈姣姣，等. 自动问答系统中的句子相似度算法的研究[J]. 计算机技术与发展，2012，22（5）：75-78.

[10]李旭锋. 中文问答系统中问句理解和相似度计算的研究与实现[D]. 广州：华南理工大学，2010.[ZK）][FL）]endprint