基于课程领域本体的中文自动答疑研究

2018-12-22张俊飞

电脑知识与技术 2018年32期

张俊飞

摘要：针对传统信息检索的低准确率、低问句理解现象，提出基于领域本体的自动问答系统DO2AS，通过本体的创建，中文问句的预处理，获取问句主干语法结构，并与语料问句模型相似计算，抽取二元成分进行SPARQL语义检索。文章以《数据结构》课程中“树”章节为例，分析了知识点间关系，创建了领域树本体，对问句分析、语义检索，从而抽取答案。实验结果验证了系统的可行性，同时分析了中文自然语言问句处理过程中遇到的困难，为后续的研究提供方向。

关键词：本体；分词；浅层语义分析；模板匹配；SPARQL

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）32-0184-03

信息检索是当前从网络获取信息的重要途径。随着机器学习、知识图谱、自然语言处理等人工智能技术的发展，信息检索在信息采集、索引、查询处理和结果排序等检索环节都有很大改善，检索性能有很好的提高。然而随着信息化的大众普及，网络信息资源越来越多，信息之间关联性增强了，出现了“信息组织局部有序而整体无序”[1]现象。传统的检索式问答和社区问答难以实现知识间的理解，不能真正把握用户意图，并且采用关键词检索到的答案包含很多语义不相关的信息，无法保证准确的检索到用户信息。区别现有搜索引擎，自动問答是信息服务的一种高级形式，呈现用户的不再是基于关键词匹配排序的文档列表，而是精准的问题答案。自美国IBM Watson自动问答机器人轰动业界，以自然语言为问答方式的移动助手如苹果公司Siri、微软Cortana等喷井式涌现。自动问答提供面向自然语言的友好界面，是一种理想的问题解决方法，是当前的热点研究。[2]

近年来，更多研究者热衷于利用本体技术、语义网、自然语言处理技术等新型技术实现基于本体知识库的语义自动问答检索。本体是共享概念模型的形式化规范说明。[3]把客观世界的现象抽象成为概念模型，明确概念间的约束，共享网络中，形式化概念表述便于计算机处理。面向某一领域的本体具有一定的表达习惯、规律，根据领域特点添加特有的处理机制，可以对该领域知识有效地进行知识表示和表达，如中科院研发的红楼梦人物关系问答系统[4]，清华大学的EasyNav校园导航系统[5]。面向自动问答的本体分类，按照RDF数量集可分为：单一RDF数据集、分布式RDF数据集、面向整个数据网。[6]单一RDF数据集为领域本体，在当前研究最多，如李红梅等[7]利用本体表示产品设计知识库，问句语义特征匹配算法实现本体查询，樊孝忠等[8]构建了基于银行领域本体的自动问答系统。分布式RDF数据集因涉及多个不同模式的RDF数据集，实现起来比较复杂。如欧石燕等[9]在图书馆领域将自然语言问句转化为结构化SPARQL查询语句，从相互关联的五个RDF数据集中提取特定答案。面向整个数据网本体目前还不太成熟。

本文提出一种基于受限域课程本体的知识自动问答系统DO2AS解决方案，使用本体语言描述课程《数据结构》“树”章节结构化基本知识，形成由RDF三元组有向图知识结构的本体知识库；通过用户自然语言问句预处理如分词处理、命名实体识别、谓语消歧、问句分类并疑问词归一化处理等操作实现自然语言问句向结构化问句转化；再由句法依存分析、问句模板匹配相似度算法等处理构建本体SPARQL查询语句，最终在本体知识库中推理匹配精准答案。

1 基于领域本体的问答系统模型设计与实现

中文自然语言处理是通过可量化的方法对中文自然语言单位进行分析、提取、加工、存储等操作。D.Moldovan指出，对用户语义理解可以导致问答系统78%的错误。[10]中文自然语言处理在自动问答系统中处于核心地位，因此DO2AS系统模型设计主要含有三大部分：第一部分基于本体的用户问句信息预处理，涉及到问句的分词处理、命名实体识别、谓语消歧、问句分类与疑问词归一化。通过预处理为问句理解语法结构分析提供基础；第二部分问句理解，即语法结构分析，获取问句语法结构标记，构建问句句型模板，利用相似度计算，找到与问句句型模板相似度最高的语料句型模板，从而获取本体三元组信息中的二元信息数据；第三部分运用SPARQL查询语言，结合二元信息进行语义检索与推理获取答案。在整个系统设计流程中，需要同义词词库、停用词词库、关系型数据库、相似度算法、本体知识库等支持环境。自动问答DO2AS系统模型设计如图1所示。

1.1 基于本体的用户问句预处理

本体的表现形式常见有：RDF、RDFS、OWL。一个RDF文档就是一个有向图，描述一个实体-属性-值的三元组；RDFS通过添加语义结构扩展了RDF；OWL是建立在前两者之上万维网本体语言，具有更加丰富的语法。本体数据的来源可以基于客观事物创建或从其他数据库中转化。常用创建本体的软件有Protégé、Apollo、WebODE等；转化工具有D2RQ、SquirrelRDF、OpenLink Virtuoso等，将关系型数据库发布为关联数据，映射到本体的类和属性上，供语义操作。本研究采用开源Protégé软件工具，依照斯坦福大学研发的七步法[11]，实现对课程单一领域本体的创建，以OWL为表现形式。用户问句具有自然语言随意性、表达方式多样性等特点，需要把用户问句与构建的知识库本体进行映射处理，形成结构化三元组形式。

1）命名实体识别

命名实体识别主要目的是实现查询对象与本体实体的映射。中文自然语言问题对象描述具有任意性，而本体实体处理具有专一性，为了规范自然语言实体名描述，更好地进行句型模板匹配，更加准确获取三元组中数据信息，命名实体识别采用领域实体对象词库和同义词替换实现二者之间的映射。映射公式1中，x为查询语句中实体表达，SQLquery（namedentity，x）为x对应的本体中命名实体表达在数据库中的呈现形式。

2）本体属性消歧

本体采用RDF来形式化元数据。一个RDF语句由资源、属性、属性值构成的主谓宾三元组。谓词属于三元组中属性概念词，自然语言问题对象属性描述的任意性和本体创建后的专一性存在不匹配问题是谓词消歧要解决的。本体属性有两种：数据属性和对象属性。三元组中的谓词部分由属性值充当，一般是由固有动词、名词等构成。现有的词库已具备对固有动词、名词等的识别，但还需补充领域本体专有词汇，最后还需要把谓词替换为本体构建采用的属性词汇，如Data Properties和Object Properties中定义的属性。

属性消歧使得任意性的问句谓词归一化到本体创建的属性关系上，便于形成SPARQL查询语句，也是为提高句型模板匹配准确性，从而有效地提取SPARQL查询所需的二元组信息。本体属性映射公式2中，x为查询语句中属性表达，SQLquery（ontologyattributes，x）为x对应的本体中属性表达在数据库中的呈现形式。

3）问句分类与疑问词归一化

问句类型的划分，实现了对问句的归类，每种类型都有对应许多疑问词。如定义类问题对应的疑问词包括有：什么是、是什么、何谓、叫什么等。通过问句分类，梳理类型疑问词汇，对疑问词汇的映射实现疑问词归一到特定问句类型，再进行语法依存分析。疑问词归一到问句策略降低了检索范围，提高了句型模板匹配效率。疑问词映射公式3中，x为查询疑问词，Sparql（ontologyquestionwords，x）为x对应的本体主题资源的注释信息。

4）同义词映射算法设计

5）分词处理

中文问句分词处理是把问句序列分割成若干词语，是问题答疑的基础工作。目前主流的中文分词算法有：1依照词典的机械分词，用已存在的语料词典和中文语句匹配，进行语句分割。無词典的中文统计分词，按照在语料库中出现次数越多的汉字或者词组进行分词处理。本研究中涉及命名实体和疑问词语料词典，因此选择基于词典的IK2012中文机械分词算法。

IK2012分词器是结合词典分词和文法分析算法的中文分词组件，包含智能分词和最细粒度分词。通过配置文件IKAnalyzer.cfg.xml实现对外部停用词词典和扩展分词词典的加载，从而实现分词过程中剔除停用词和增加扩展词典的分词。在测试系统环境下，IK2012的分词效果如下表1所示。

1.2 用户问句理解

浅层语义分析和“深层”目标是对立的。当前计算机语音学研究在复杂语言环境下，受到束缚收效甚微。[12]浅层语义分析摒弃了语言关系的复杂性，通过标签体系等语义框架对句子成分和结构进行标注，为解决复杂自然语言提供了新的途径。

1）句法依存分析

Stanford Parser是知名度较高的句法分析软件，由斯坦福大学研发的句法分析工具，采用依存文法和上下文无关文法PCFG[13]相结合算法进行句法结构解析。解析结果产生两种数据结构：2语法树，如表2中语法树部分内容；语义间的依存关系，如表2中依存关系部分内容。本研究利用Stanford Parser解析分词后的问句，得到问句语法依存关系结构，获取语法标记形成问句模板，与已存在的句型模板进行相似度计算。

2）问句模型匹配

问句模型匹配是自动问答核心技术层。只有精准匹配成功，才可以准确获取语义三元组中的二元数据信息，才能够构建SPARQL查询语句。匹配的过程也是相似度计算的过程，不仅要考虑问句模板和已知句型模板的句法标记的重合度，还要考虑模板中语序上相似性。自然语言的随意性可能使得不同语序的问句表达相同意思。句法标记的重合度计算采用余弦定理算法，语序相似性利用编辑距离算法计算。通过两种算法结合使用求解与问句模板最匹配的句型模板，获取本体知识库三元组数据中的二元数据信息，进行语义查询。问句模型匹配算法公式7如下所示。

1.3 SPARQL查询语句

SPARQL是针对RDF设计的查询语言和数据获取协议。按照图模式去匹配本体中的三元组集合，实现对主谓宾数据的获取。在图模式的查询语句中，应在三元组查询元素变量前添加“？”。如以现有成熟的三元存储库DBpedia中数据为例，查询BaronWayBuilding的地理位置语句如下。

2 实验

目前国内还没有权威的中文问答系统评测平台，针对本研究领域本体，还没有开源的测评数据集供系统模型测试验证。因此依据“百度知道”，以数据结构“树”为关键词搜索出相关问题，并对相关问题进行分类，构建110道数据集。信息检索领域通常采用准确率P（Precision）、召回率R（Recall）和F1值（F1-measure）作为检索结果的指标。准确率是用来衡量检测系统的查准率的指标，准确率值越大说明实验的检索效果越好，反之效果越差。召回率是用来衡量检测系统查全率的指标。F1值是召回率与准确率的综合体现，当F1值较高时说明检索方法效果较好。[14]

对比测试步骤设计如下：

步骤1：为110道数据，设计相同意思，但不同表达的问句。

步骤2：以设计的问句作为查询语句进行答案检索。系统界面、语义检索过程界面见图2、3。

步骤3：对问答测试中检索到的答案进行人工判断。

步骤4：根据判断结果，分析测试指标，完成系统的评估测试。

从表3数据分析结果可以得出：在110个测试问句中，DO2AS系统在三种类型问题的检索中，F1值达到70%以上趋于稳定，然而P、R、F1三个检测指标相对还是偏低，分析原因发现有以下几点：3领域本体知识库数据稀疏。本体不能够完全的涵盖整个领域知识点，导致查询某知识点时无法对本体中三元组信息很好的扩展；语料句型模板不够充分。自然语言具有很强的任意性，中文尤其。语料句型模板不能够满足对问句语法结构的全部梳理，使得部分问句无法匹配到精准的语料句型模板；问句模板匹配算法差异。匹配算法设计的好坏直接影响到语料模板的准确匹配，从而影响查询本体三元组中二元信息的精确度。

3 结论

面向中文领域本体自动答疑，本文采用Protégé工具构建《数据结构》中“树”知识点本体知识库，通过语法依存分析，提取自然语言问句中的主干结构，与问句模型匹配获取三元组中的二元成分，然后在本体中查询出精确答案。在自动问答DO2AS系统实现过程中，运用到了中文分词技术、Stanford Parser、同义词算法、余弦定理算法、编辑距离算法、语义检索、本体创建等技术的组合使用。实验证实了其自动答疑的准确性，同时也分析了自然语言问句处理过程中遇到的问题，为后续研究提供了方向。

参考文献：

[1] 杨月华，杜军平，平源. 基于本体的智能信息检索系统[J]. 软件学报，2015，26（07）：1675-1687.

[2] Lopez V，Uren V，Sabou M，et al.Is Question Answering fit for the Semantic Web？：A survey.[J].Semantic Web，2011，2（2）：125-155.

[3] Gruber T R.A translation approach to portable ontology specifications[J].Knowledge Acquisition，1993，5（2）：199-220.

[4] 王树西，刘群，白硕. 一个人物关系问答的专家系统[J]. 广西师范大学学报（自然科学版）， 2003（1）：31-36.

[5] 黄寅飞，郑方，燕鹏举，等. 校园导航系统EasyNav的设计与实现[J]. 中文信息学报， 2001， 15（4）：35-40.

[6][9] 欧石燕，唐振贵. 面向图书馆关联数据的自动问答技术研究[J]. 中国图书馆学报，2015（6）：44-60.

[7] 李红梅，丁晟春. 基于本体和设计情景的产品设计领域知识问答系统研究[J].情报理论与实践，2015，38（01）：130-134.

[8] 樊孝忠，李宏乔，李良富，等. 银行领域汉语自动问答系统BAQS的研究与实现[J].北京理工大学学报，2004（6）：528-532.

[10] Moldovan D，Pasca M，Harabagiu S.Performance issues and error analysis in an open-domain question answering system[J]. Acm Transactions on Information Systems， 2003， 21（2）：133-154.

[11] Noy N F， Mcguinness D L.Ontology development 101：A guide to creating your first ontology[J].And Stanford Medical Informatics，2001.

[12] 陳耀东，王挺，陈火旺.浅层语义分析研究[J].计算机研究与发展，2008，S1：321-325.

[13] 林颖，史晓东，郭锋.一种基于概率上下文无关文法的汉语句法分析[J].中文信息学报，2006，2：1-7+32.

[14] 张倩，刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术，2013（2）：30-35.

【通联编辑：王力】