基于物资采购本体的问答系统设计
2016-04-22杜梦影杨志来
杜梦影 杨志来
中国兵器工业标准化研究所,北京,100089
基于物资采购本体的问答系统设计
杜梦影 杨志来
中国兵器工业标准化研究所,北京,100089
通过物资采购领域本体的研究和讨论,确定构建一种以物资采购本体为基础的问答系统。该系统共分为问题处理、检索和答案抽取三个模块,各模块协同工作完成用户提问的答案搜索和显示工作。系统根据领域本体的特殊性改进了一种关键词权重的计算公式,以关键词匹配和自然语言处理相结合的方法进行问答系统设计。
物资采购;问答系统 ;信息检索
1 物资采购本体设计
物资采购本体作为问答系统的研究对象有以下优势:一、目前大型企业物资采购业务越来越多元化,管理者对物资采购的关注度逐渐增加;二、物资采购领域的概念丰富,且关联度大,识别度高;三,物资采购领域中的知识层次比较清晰,便于构建本体。
研究构建物资采购本体的目的在于:解决企业各部门对物资采购相关知识的需求问题并弥补物资采购领域问答系统的空白。具体而言即帮助采办者找到其想要得到的准确答案。
1.1 选取术语、定义概念
通过研究物资采购领域知识,选取物资采购领域的专业术语。实施方式为向用户发放调查问卷和查阅专业文献。具体选取术语和定义概念时,首先查阅物资采购领域的信息资源,通过总结与物资采购相关的信息,概括出物资采购领域的术语,再将术语制成表格,发放给网络用户进行网络调查,要求用户根据自身的理解和需求选择他们认为与自己相关的术语。最后通过综合问卷、结合文献以及查询术语分类表等手段将结果进行比对,最终确定出本系统需要的物资采购术语。
此方法提取出了98%用户关注的物资采购信息,这些信息并不包含所有的物资采购领域知识,但可达到一般用户需要的物资采购知识。因此,本系统只保留了这些领域知识,从而根据这些知识定义物资采购本体的概念,最终构建合理的、符合用户需求的概念体系。
设计物资采购本体时需要注意的问题有:收集相关学科知识时,确保所用术语为该学科内公认并从不同的层面形式化术语之间相互关系的明确定义。
1.2 定义类名、属性及实例
术语本身包含了本体中的概念(类名)、属性和以上两项内外在的相互关系(逻辑关系)。对于属性,要依据应用范围对其进行规范的定义。对于逻辑关系,为构成一个完整的逻辑关系体系应将其明确分为三类:概念与概念之间的关系;属性与属性之间的关系及概念和属性之间的关系。本文以逻辑推理为基础,并实施试验验证的手段,最终构成了一个立体的、直观的逻辑关系网。物资采购资源本体还给出了具体的物资采购资源实例以及他们所属的资源类别。
1.3 构建物资采购领域本体
完成自然语言层次的本体规划后,将利用Protege软件对物资采购本体进行实体构建。构建的步骤如下:①打开protege软件,“文件” —“新建项目”,选择OWL文件格式。②通过在“OWL”栏内选择“preference”,并在 “OWLPreference"对话框中选择“OWLDL”。
1.4 命名概念
当新建OWL文件时,系统自动生成一个things类,随后由用户建立的所有类均为things的子类。物资采购领域本体以“物资采购资源”作为主体概念(类)。用户首先可以通过类关系窗口对已建立的类层次关系进行添加,添加对象可为同级类、子类,同时还可对已有类进行删除、查看等操作。随后用户可通过类编辑窗口,实现输入类名、描述和定义类以及类不相交等功能。
1.5 物资采购本体设计
本步骤是建立概念层次结构模型。在物资采购资源本体中,设计者一共提出了八类主要的概念,分别是:采购形式、采购因素、采购人员、采购对象、采购商、供应商、采购产品。
本段列出了基于物资采购本体的问答系统的相关知识库模型。在本体的各种关系中,本文分别设计和构建了类属种关系、整体—部分关系、属性关系等。
(1)类属种关系
分别以上提到的概念。
(2)整体-部分关系
整体—部分关系表示概念之间组成关系。
(3)类-实例关系
类-实例关系表示类的实例与类之间的关系,即个体作为类的实例与类建立关系,其中属于某一类的实例具有这个类的所有属性。举例说明:在子集团类中,北方工业集团、辽宁华景集团和信息控制集团等等就是它的实例,即与子集团类属于类实例关系。
(4)类属性关系
类属性关系表示某个概念是另一个概念的属性,即某个类所具有的属性。如“军械装备总装”类拥有“厂名”、“厂址”、“级别”、“主营业务”等属性。
2 问答系统设计
基于本体的问答系统需要采集用户提出的问题,经过问题处理模块形成查询关键词;再对问句进行二次分析,根据分析结果判断采用何种查询机制。本文对查询模块设计了两种查询机制,一种是基于问句本身的推理,另一种是基于关键词的推理。
基于问句本身的推理通过语义算法求出问句的语义表达式。处理过程为:第一步,在问句集合中查找与用户问句相似的模板;第二步,对比用户问句和模板的句式结构得到二者的匹配程度,并以向量的形式来表示用户输入的问句;第三步,利用生成的向量模型检索问句集中对应这种模型的答案形式。
基于关键词的推理过程由查询处理模块和答案提取模块共同完成。查询模块首先提取问句中的关键词,再进行浅层规则推理,推导出有语义关系的语义向量;再将语义向量传递到答案提取模块,通过答案模式匹配抽取与答案最相关的语义向量作为答案因子,最后将这些答案因子带入知识库中解析。由于知识库以本体的组织方式构成,在解析过程中,可实现在知识库内的二次推理,通过二次推理最终可得到准确率较高的答案。
以下是上述几个模块的作用。
(1)问题处理模块
对用户的自然语言提问进行处理,其中包括:对句子的词、句法的分析;对关键词的提取(提问关键词、扩展关键词、…);经过句模匹配,确定问句所关注焦点和问题的类型等。
(2)检索模块
输入问题处理模块提取出的关键词,通过关键词匹配等信息检索技术获得答案可能所在的段落、句群,再对这些文档进行处理,最后得到范围小的段落、句群。
(3)答案抽取模块
对检索模块中找到的段落、句群进行语法和语义分析,并根据在问题处理模块中确定的问句类别,抽取出与问句类型一致的实体,并根据与答案的符合程度将其排序,将次序靠前的实体作为答案返回给用户。本系统采用基于搜索、匹配和自然语言处理相结合的方法进行问答系统设计。在本系统中,首先将关键词分类为:普通关键词(ord)、扩展关键词(ex)、基本关键词(basic)、引用关键词(quote)和其他关键词(other)。普通和基本关键词是从问句中通过分词处理直接抽取出来的关键词;扩展关键词是通过网络扩展得到的关键词;引用关键词是问句中引号内的词。
以下公式即对关键词权重的计算方法:
式中的v1~v5分别代表普通关键词、扩展关键词、基本关键词、引用关键词和其他关键词的加权因子,体现各种关键词对排序的重要程度。通常,weight(ord)> weight(ex)>weight(quote)> weight(basic)>weight(other)。式中的ord、ex、basic、quote和other是各种关键词本身的得分。在系统运行时,系统会通过分析判断当前问句的模式,根据判断结果将与此类问句有直接关系的答案模式集中抽取出来,再通过语义等其他要素验证哪个答案模式真正与问句匹配,最后得到用户想要的答案。例如,问句“某国成立于哪年哪月哪日?”,其对应的部分答案模式如下:
a.<国家>于<答案>成立
b.<国家>成立于<答案>
c.<国家>在<答案>成立
d.<答案>成立了<国家>
e.<答案><国家>成立了
3 结语
对于自然语言处理,本系统利用本体知识库对用户问句进行浅层语义推理,根据推理结果返回答案。
仍需改进:第一、本系统目前仅支持文字输入;第二,本系统为模拟系统,并未上线进行实际应用,因此并未讨论负载能力、用户体验等方面的问题;第三,本系统算法逻辑较为简单,后期需要加强对此的研究和讨论。
[1]张玉琴.企业采购管理系统的设计[J].企业技术开发.2014(13):70-71.
[2]刘红梅.基于C/S和B/S体系结构应用系统的开发方法[J].计算机与现代化.2007(11):52-54.
[3]曾学军.浅析B/S和C/S结构的开发与应用[J].电脑知识与技术:学术交流.2007(08):407-408.
[4]葛昂扬.试论高校设备招标采购的管理[J].浙江教育学院学报.2005(03):105-108.
[5]罗海滨,范玉顺,cims.tsinghua.edu.cn,等.工作流技术综述[J].软件学报.2000(07):899-907.
杜梦影/1987年生/女/北京人/本科/工程师/研究方向为信息化管理