基于领域本体的自动应答系统典型问句分析*
2016-10-26唐勇
唐 勇
(常州纺织服装职业技术学院常州213164)
基于领域本体的自动应答系统典型问句分析*
唐勇
(常州纺织服装职业技术学院常州213164)
基于领域本体来研究自动问答系统中用户问句的分析与处理方法。通过构建旅游领域的本体知识库,梳理了旅游电商领域各种概念之间的关联。通过在本体知识库中加入程度形容词类和疑问词类,定义这些词语与本体中概念类的修饰和指代关系。分析了如何利用本体知识库对用户的四种典型问句进行处理,为后续问句的答案处理提供了技术准备。
领域本体 自动应答 问句分析
一、引言
随着电子商务的普及和发展,越来越多的企业需要构建自动应答系统为用户提供实时的业务咨询和问题解决方案,在此过程中如何理解用户提出的问题并返回准确的答案,即问句的分析与匹配是自动应答系统的实现基础。
中文问句分析与匹配的主要方法有:基于关键词匹配的分析、基于概念的分析、基于模式匹配的分析和基于语义理解的分析[1]。其中,基于关键词匹配的分析依据向量空间模型计算关键词在常见问题集合中出现的频率,选择匹配值高的问题作为答案[2],其缺点是割裂了关键词之间语义关系;基于语义理解的分析考虑了问句中关键词之间的依存关系,包括内在联系和修饰关系[3],常利用知网或同义词词林对问句中的关键词进行词语相似度计算[5]。然而,知网和同义词词林给出的是词与词之间的普遍意义,没有结合特定领域的知识。
本文以旅游电子商务中用户在线咨询为应用场景,构建面向旅游电子商务的知识本体,分析该领域用户咨询的特点,分析问句的问点、对象和疑问词等关键特征,然后在本体知识库中匹配问句、抽取问题答案。
二、本体的构建
本体被定义为“共享概念模型的明确的形式化规范说明”,它以计算机可读的方式为现实世界中各种事物或现象做了概念定义,并描述了这些概念之间的相互关系,使得知识的重用和共享成为可能。领域本体是指特定领域中概念与概念之间的相互关系,提供了该领域的相关词汇和概念。
Protege软件是斯坦福大学开发的本体编辑和知识获取工具,能够快速的进行本体建模。针对旅游电子商务领域涉及到的相关概念,根据Gruber提出本体构建的五个准则,使用protege软件构建旅游电子商务的本体,如图1所示。该本体中主要涉及到人、景点、交通工具、组织机构、地理位置、线路和票据等类,这些类又可以进一步划分为若干子类,比如人可以分为客户和导游;组织机构分为:景点管理机构、旅行社、酒店和保险公司等;景点可以划分为人文景点和自然景点;票据包括门票、车票和住宿发票等。
本体中的类具有数据属性和对象属性。其中,数据属性表明类具有的某种状态,比如景点类具有开放时间、关闭时间、面积大小等属性;车票类具有价格、发车时间等属性。对象属性表明多个实体类之间的相互关联,例如:预定属性表示客户和酒店之间的“预定”关系,其定义域为客户,值域为酒店;交通工具和景点之间具有“到达”的属性关系等。
三、典型问句类型分析
中文问句的类型大致可以划分为是非问句、正反问句、选择型问句和特指问句,如表1所示。
表1 中文问句类型及结构分析
1、“是非问句”一般以疑问词结尾。通过定义一个“是非疑问词”列表来检测,若问句中含有是非疑问词,则进一步判断问句结构是否为“名词+形容词+疑问代词”,若是,那么问点应是名词的某种属性,而该属性可能被多种形容词修饰。
例如,“恐龙园贵吗?”这句话实际上是想询问恐龙园门票的价格。修饰价格的形容词除了“贵”之外还可能是“高、低、便宜”等。在本体中添加“程度类”与“属性类”,其中“程度类”包含了“高、低、远、近、大、小、多、少、贵、便宜”等形容词语。“属性类”包含了“价格、距离、面积、价格,等级”等的名词。定义价格属性的值域为“高、低、贵、便宜”等,面积属性的值域为“大、小”等。如图2中红色虚线所示。当在本体中查询形容词“贵”的修饰关系时可以得到价格属性,进而发现价格属性的拥有者是门票类,问句被转化为“恐龙园+门票+价格”。进一步挖掘可以回溯到景点管理机构、景点和位置信息。类似的,“恐龙园大吗?”则通过形容词“大”和“恐龙园”景点推出其修饰的是“面积”,因此返回“恐龙园+面积”的相关信息。
“是非问句”还有可能是“主语+谓语+宾语+疑问代词”或“主语+介词+宾语+疑问代词”的结构。对此类型可以直接在本体中查询主语和宾语的关联关系。例如“常州有地铁吗?”提取出“常州”和“地铁”,通过本体查询可以获取“常州”是位置类的实例,“地铁”是交通工具类的实例,在本体模型中位置和交通工具之间为“拥有”关系。例如“恐龙园在常州吗?”提取出“常州”和“恐龙园”,通过本体查询可知“恐龙园”是景点类的实例,它与位置类的实例“常州”之间是“位于”的关系。
部分“特指问句”具有“多+程度形容词”的结构。例如“市区到恐龙园有多远?”可以提取程度形容词,按照“是非问句”的分析方式进行处理。
2、“正反问句”含有“肯定否定组合词”。例如“可不可以”、“能不能”、“是否”等,可以将其转换为是非问句。例如“恐龙园门票贵不贵”被转换为“恐龙园门票贵吗”,“常州有没有地铁吗?”被转化为“常州有地铁吗?”。然后按照“是非问句”的方法进行处理。
3、“选择问句”含有“是……还是”的选择项。可以根据此特征将问句划分为两个“是非问句”。例如“去常州是坐汽车快还是坐火车快?”被转化为“去常州做汽车快吗?”和“去常州做火车快吗?”两个是非问句。在本体中的关系如图3所示。汽车和火车都是交通工具类的子类,而常州是位置类的实例。在本体模型中路线类具有时间,时间类又被程度词“快、慢、长、短”等修饰,而路线和位置是到达关系。通过在本体中查找程度词“快”并结合位置类和交通工具类可以返回有关路线的信息。
4、“特指问句”通常用疑问词代替未知的部分,这些疑问词包括“怎么、什么、哪里”等。例如“常州恐龙园在哪里?”。在旅游电商领域特指问句的问点一般集中在时间、位置、路线、交通等方面。将疑问词分为位置疑问词,例如“哪儿、哪里、哪个”等;方式疑问词,例如“如何、怎么”等;针对物的疑问代词包括“哪些、哪个、什么”等。在本体中建立“疑问代词”类,并设置与位置、路线、交通、景点等类之间具有“疑问指代”的关联关系。以路线和位置类为例,它们和“疑问代词”类之间具有图3所示的关联关系。
借助哈工大语言云系统的分析可以得出图4所示的语句依存关系。若疑问代词在语句中的成分是宾语(POB或VOB),那么提取出主语(SVB);若疑问代词为主语(SVB),则提取出宾语部分;进一步在本体中查询疑问词的修饰的对象是位置、方式还是事物。若疑问词在句子中作为修饰成分ATT或ADV,那么提取出句子的主语和宾语部分,结合疑问词在本体中可以修饰对象进行本体查询。
四、问句的查询
根据对问句的分析将“选择问句”、“正反问句”、带有“多+形容词”的特指问句转换为“是非问句”。其流程处理为提取问句的主语、宾语等实体名词;在本体中查找被“程度词”修饰的类;结合这些修饰类和主语名词在本体中进行匹配。对于“特指问句”则在本体中查找疑问代词的指代类,结合这个类和语句中的实体名词在本体中进行三元组的匹配。
基于Protege构建的本体可以被保存为xml格式的文档。本体的查询可以使用SparQL技术,SparQL是W3C组织推荐的标准本体查询语言,其语法结构类似数据查询语言SQL。例如在旅游本体中查询“到达常州的旅行线路”可以采用以下的语句。
PREFIXtour:
SELECT?rout
FROM
WHERE{?site tour:location"changzhou".
?rout tour:weblog?site.}
五、结束语
本文介绍了领域本体的概念并使用Protege工具构建了旅游领域本体;根据旅游电商自动问答系统的需求,分析了该领域内常用的四种典型问句:是非问句、选择问句、正反问句和特指问句。通过在本体中加入程度形容词、疑问代词,将典型问句中常用的疑问词与旅游本体的类通过对象属性有效关联起来;详细阐述了如何利用本体识别典型问句的潜在含义,从而为自动应答系统的答案抽取提供了技术准备。
[1]王恒.中文问答系统的研究与实现[D].哈尔滨工业大学.2008:23-25.
[2]秦兵,刘挺等.基于常问问题集的中文问答系统研究[J].哈尔滨工业大学学报.2003(35):10.
[3]强继朋.FAQ系统中的问句相似度研究[D].合肥工业大学.2013:12-14.
[4]郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32
[5]田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报.2010(06):605.
Analysis on the Typical Question of Auto-answering System Based on Domain Ontology
TangYong
(Changzhou Textile and Garment InstituteChangzhou213164)
To research the method of question analysis and processing in auto-answering system based on domain ontology.This paper sorted out the the relationship between different concepts in the field of tourism e-commerce by building the domain ontology knowledge base.Defined the modified and referential relationships between the domain concepts and classes of adjective words and interrogative words which are adding to the domain ontology knowledge base.Analyzed how to use the domain ontology knowledge base to process the four typical question in the tourism e-commerce field,which will give the technical preparation for the following answers processing in auto-answering system.
Domain ontologyAuto-answeringQuestion analysis
TP391.12
A
160801-7352
常州纺织服装职业技术学院应用技术类课题(编号:CFK201512)
唐勇(1982~),男(汉族),安徽滁州人,硕士,讲师。研究领域:电子商务。