基于本体的业务源模型知识库构建及应用研究
2018-04-18徐展琦赵国强
李 智 徐展琦 丁 喆 赵国强
(西安电子科技大学综合业务网理论及关键技术国家重点实验室 陕西 西安 710071)
0 引 言
随着互联网科技与大数据技术席卷全球,新型网络应用不断兴起,网络流量呈爆炸式增长,网络中的流量行为趋向复杂化、多元化,亟需加深对网络流量行为模式的认知。业务源模型通过对真实网络流量的模拟,刻画实际流量的突出特性,是一种能够对实际网络流量进行数学分析研究而设计出的数学模型。其对网络的设计规划、网络性能评价、流量预测及准入控制等都有重要的研究意义和作用。传统业务源描述方法通过建立诸如泊松模型、时序模型和小波模型等不同的数学模型,描述业务源的流量特征[1]。已有业务源模型相关研究主要是针对某类具体问题如流量预测问题,建立特定业务源模型并提出具体算法以解决相应问题[2],缺乏从宏观角度对业务源模型进行整体描述的研究,难以形成一个相对完整的知识库,不利于其知识共享与重用。
知识表示将知识以计算机可理解的方式存储并使用,是形成相应知识库的前提,传统的知识表示方法主要包括框架表示法、一阶谓词逻辑表示法和产生式表示法等。此类方法很难表示复杂知识,改进的知识表示方法主要有语义网表示法和本体表示法[3]。其中本体表示法可用于描述对象的深层语义,形成的知识具有清晰的概念层次结构和可视化的展示界面,并支持语义层面的逻辑推理,能有效提高知识重用效率。本体表示法已成功被应用于多个领域,国外已实现并投入使用的大型本体有:Cyc[4]、WordNet[5]和UMLS[6]等。Cyc的目标是建立一个完整的人类常识知识库;WordNet是一种基于认知语言学的英语词典,能够按照单词语义将其组成一个“单词的网络”以支持自动的文本分析和其他人工智能应用;UMLS利用本体技术实现对生物医学领域词汇的汇编。钟秀琴等[7]国内研究者研究了基于本体的几何学知识获取,为几何学专家系统、信息检索等领域提供智能基础;文献[8]提出基于领域本体的文献标注算法,通过融合站点间的数据,构建游戏领域本体;史云放等[9]利用本体将语义特征引入网络电子学习资源库模型构建中,提高资源库检索的查全率和查准率。文献[10]针对当前工业消防领域存在大量异构信息的问题,采用本体技术建立一种标准化格式的异构信息知识库。目前,鲜有学者将本体应用于网络业务源模型的知识表示与建模。
本文从知识表示的角度出发,将本体应用于业务源模型领域知识的形式化描述,构建了业务源模型本体TSMO(Traffic Source Models Ontology)。首先,本文提取并分析了业务源模型领域的核心概念及相关属性,基于OWL构建TSMO;其次,以TSMO为数据源,利用本体查询语言SPARQL(Simple Protocol and RDF Query Language)和本体推理机,并同时结合具体应用场景,对所建本体进行各类知识检索与推理,验证所建本体的实用性;最后,在所建本体基础上设计开发了业务员模型智能信息检索系统,在验证所建本体的合理性和通用性的同时,为研究者和用户提供了一个业务源模型领域知识服务语义平台。
1 业务源模型本体构建
1.1 本体知识概述
本体是共享概念的明确形式化规范说明[11],通过规范化描述概念、属性及其相互关系,形成某一领域的基本知识体系,建立领域内的语义基础,为某个领域或领域间的实际应用提供便利。从知识工程的角度来说,本文设计的业务源模型领域本体指的是网络业务源模型的本体知识描述,包含业务源模型领域中的术语、术语之间的关系、属性及规则等。
为了将所建本体以计算机可理解的方式存储,提升知识库的可用性,需采用资源描述框架RDF(Resource Description Language)[12]与OWL[13]相结合的方式对其进行形式化描述。RDF是一种声明语言,在应用中支持基于推理的知识发现而不是全文匹配检索。例如,短相关模型具有对象属性目标节点且泊松模型是其子类,上述知识可用如下RDF语言形式化描述:
OWL是W3C推荐的本体描述语言标准,拥有更多机制来描述对象和表达语义,支持RDF语法,添加了更多用于描述属性和概念的词汇。如类型之间的不相交性(Disjointwith)和基数(Cardinality)等,同时使用描述逻辑(Description Logic)增强其推理能力。
为了深化用户对领域知识的认知,本文利用RDF三元组将知识以直观的形式展现给用户。RDF三元组由资源、属性及属性值构成,可用图形方式展示。图1为RDF三元组的一个示例,它表示ShortCorrelationModel是TrafficSourceModel的一个子类且与短相关模型等价。
图1 RDF三元组示例
根据以上定义及分析,本文使用Protégé 4.2[14]作为本体编辑工具,主要作用在于描述目标领域内概念、属性和它们之间的关系。Protégé 4.2不仅支持本体开发,还提供可扩展的应用程序接口API,用于访问并获取OWL所描述的本体信息,多用于本体查询与检索。Protégé 4.2的文件输出格式可以定制,可以将构建的本体转换成以RDF和OWL为描述语言的文件表示格式。
1.2 本体构建方法
目前,大多数本体编辑采用手工方式,各个本体开发组开发原则、设计标准和定义方法都有区别。比较常用的本体构建工程思想有骨架法、TOVE企业建模法、Methontology方法、IDEF-5方法和七步法[15]等。本文通过分析传统的本体构建七步法形成如图2所示的改进的七步法构建TSMO。
图2 改进的本体开发七步法
1.3 本体评估
本体评估[16]是本体开发过程的重要环节,主要是指运用科学的方法,遵循统一的标准和特定的指标体系,对本体的建设理念、应用需求、概念组织、功能设计和实际运行情况等进行综合测评的过程和方法。为了保证业务源模型本体的构建质量,实现对本体的有效管理和维护,本文主要通过本体构建过程的规范性,实现所建本体的合理性和通用性,具体如下:
(1) 在抽取构建本体所需的概念和属性阶段,参考业务源模型领域的统一标准,通过RDF三元组的形式展示领域内的相关概念和概念之间的关系,保证概念的一致性和通用性。
(2) 在使用Protégé构建本体模型阶段,采用FaCT++推理机对本体概念和属性进行一致性和包含性检测,对本体中的实例进行冲突检测,确保所建本体模型的一致性和有效性。
(3) 在本体的应用阶段,基于所建本体设计开发相关语义系统服务平台,从而进一步验证本体的可靠性和实用性。
1.4 业务源模型本体
业务源模型指以网络流量的重要特性为出发点,为了刻画实际流量的突出特性,同时进行数学上的理论分析研究而设计出的数学模型。它提供对网络业务源特性简明抽象化的描述,能明确量化表示网络流量。按照流量时域相关性特点,业务源模型可分为两大类:短相关模型和长相关模型,前者产生的流量通常在时域上仅具有短相关性,随着时间分辨率的降低,网络流量将趋于一个恒定值,即流量的突发性得到缓和;后者则在时域上具有长相关性,即自相似特性[17]。也可根据模型平稳性将其分为宽平稳流量模型和严平稳流量模型。
根据改进的本体构建七步法,构建TSMO首先要确定复用现有本体的可能性,目前还没有现成的业务源模型领域本体。然后需罗列出业务源模型中的关键概念,这些关键概念取自业务源模型产生、模拟及应用的相关领域。如图3所示,为利用RDF三元组构建的业务源模型类结构树,由于篇幅限制,这里只列出了其中的一部分类,通过树型结构直观显示它们之间的继承关系。根据本体的可扩展性,其他的类可以方便地添加到已有的类结构树和已建本体中。Protégé 4.2中的Classes标签用于创建类。
图3 部分业务源模型类结构树
Protégé 4.2工具中的Object Properties标签用于创建对象属性,Data Properties标签用于创建数据属性。图4利用RDF三元组显示了业务源模型领域的部分属性结构。
图4 部分属性结构图
不同的属性约束描述属性的不同方面,如值类型(String、Number、Boolean及Enumerated等)、允许的取值范围和值基准等。表1列出了TSMO中的部分属性及相应的属性约束。
表1 TSMO部分属性及属性约束
最后使用Protégé 4.2的Individuals标签即可添加具体的实例并赋予对应的属性值。通过上述步骤,TSMO初步构建完成,利用Protégé 4.2的OWLViz插件可自动生成如图5所示的本体结构图。鉴于篇幅,图中只显示了TSMO的上层部分。
图5 TSMO本体结构图
图5中Thing是Protégé 4.2内置的公共类,是所有类的超类,TSMO的组成如前所述,在此不再赘述。为了将所建本体以计算机可理解的方式存储,方便后续的查询推理,需使用OWL对TSMO进行形式化描述。
图5所示本体生成的部分OWL代码如下:
……
……
图6给出了各种描述语言的语义描述能力和推理能力,其中OWL在上述两方面能力均表现较好。
图6 描述语言能力
2 TSMO查询与推理应用实例
2.1 TSMO查询
传统基于关键字的查询未考虑关键词间的语义关系,无法真正理解用户的查询请求。本体查询关注资源对象的语义信息,在概念意义层次上实现语义查询,克服基于关键字查询的弊端,有效提高查准率和查全率。
SPARQL[18]是一种用于搜索RDF数据的数据协议和查询语言,于2008年成为W3C推荐标准。SPARQL有四种查询方式SELECT、CONSTRUCT、DESCRIBE和ASK,最常用的是SELECT查询方式。与结构化查询语言SQL类似,用于查询满足条件的数据。RDF可由三元组形式化描述,则SPARQL可通过构建相应的查询三元组来进行语义查询。
进行本体查询前,需给出TSMO的SPARQL查询前缀,以识别需要查询的本体。
PREFIX
rdf:
PREFIX
owl:
PREFIX
xsd:
PREFIX
rdfs:
PREFIX
uni:http://www.semanticweb.org/dace/ontologies
/2016/8/TrafficSourceModel#
uni是TSMO中元素的名字空间,rdf、rdfs、xsd、owl为W3C有关定义,下面给出具体本体查询示例。
2.1.1查询概念的类
如查询LongCorrelationModel的子类,图7为对应SPARQL语句及查询结果,标签为SPARQL query的输入框中为查询语句,具体如下:
SELECT ?SubClass WHERE
{?SubClassrdfs:subClassof uni:LongCorrelationModel}
图7 查询LongCorrelationModel子类
标签为SubClass的输出框中为对应的输出结果,表明长相关模型具有四种子类。
在图7的查询示例中,查询语句均在标签名为SPARQL query的标签框内,不再赘述。
2.1.2查询类的实例
如查询Alpha-BetaOnOffModel的实例,其所包含实例如图8所示,表明现在Alpha-BetaOnOffModel类中存在两个实例。图9为对应SPARQL语句及查询结果,查询结果输出其包含的两个实例。
图8 Alpha-BetaOnOffModel实例
图9 Alpha-BetaOnOffModel实例查询
上述示例表明,本体能够实现语义层面的查询,能够检索概念之间等价、包含等关系,解决传统基于关键字查询的不足,实现深度查询。
2.2 TSMO推理
推理指由给定知识获取隐含知识的过程,本体推理的本质就是在语义层面将隐含在显式定义和声明中的知识提取出来,相对于传统推理方法可实现语义层次的知识发现。本文利用Protégé 4.2中自带本体推理机实现本体推理。
本文构建的TSMO采用OWL作为本体描述语言,可采用专用本体推理机,FaCT++[19]基于传统TabLeaux设计实现不仅具有很高的推理效率而且有突出的检查效率。故本文使用Protégé 4.2集成的FaCT++作为推理机,基于传统描述逻辑进行推理。下面给出一个简单示例,首先定义PoissonModel的几个实例,然后启动Reseaoner标签下的FaCT++推理机实现推理,得到如图10所示的推理结果。
图10 推理结果
为说明基于业务源模型本体的实际应用,现假设有如图11所示的网络应用场景。当前网络中存在业务A、业务B和业务C三个业务,若业务A和业务B属于泊松模型的两个实例,而业务C属于长相关模型的实例。若研究者在研究过程中需查询网络中存在哪些短相关模型,并同时查询这些业务源模型的相关参数,则可以在Protégé中利用FaCT++推理机对所建本体进行推理,推理机由PoissonModel为ShortCorrelationModel子类的给定知识获取了PoissonModel的实例也属于ShortCorrelationModel实例的隐含知识。图10表示推理结果,网络管理者或研究人员可以根据此方便管理管理网络中业务,同时查询业务参数,为后续研究提供便利。
图11 网络应用场景
综上,本体推理在语义层面可有效实现关联数据的链接发现,具有较高的实用价值。
3 业务源模型本体语义应用系统
基于已构建的业务源模型领域本体,本文设计开发了业务源模型智能信息检索系统,为研究者和使用者提供相关业务源模型语义服务。业务源模型智能信息检索系统采用Java语言开发,Web页面脚本语言选用JSP,后台服务器选用Tomcat 7.0,OWL本体文件解析推理使用Jena 2.6.3和内嵌推理机FaCT++,XML文件的解析使用DOM4J。系统主要设计实现了本体采集、本体扩展与管理、术语检索和实例查询等功能。这些功能实现的关键技术主要是使用Jena API对OWL本体文件进行语义解析,获取本体信息并存入相应的数据结构,对查询关键词进行分词处理,调用相关SPARQL语句获取显性知识,并结合推理机获取隐性知识。例如,用户使用查询关键词“长相关”的查询结果如图12所示。查询结果表明,由于本体在概念之间引入语义特征,从而能够检索出相关隐性知识,同时验证了所建本体的一致性和通用性。
图12 业务源模型智能信息检索系统
4 结 语
本文从知识表示的角度出发,使用本体作为知识表示工具,探讨网络业务源模型领域的知识获取与表示,给出所建本体的概念层次关系和属性描述。结合新增实例构建一个相对完善的业务源模型领域本体TSMO,形成业务源模型的知识库原型,实现对该领域知识的建模。使用RDF和SPARQL完成对TSMO的子类和实例的语义查询,结合具体应用场景验证本体推理的应用价值。最后基于所建本体,设计开发了业务源模型智能信息检索系统,为研究者和使用者提供了一个业务源模型领域知识服务平台。
[1] Grimm C, Schlüchtermann G. IP traffic theory and performance[M]. Berlin:Springer, 2008:1-319.
[2] Park D C. Structure optimization of BiLinear Recurrent Neural Networks and its application to Ethernet network traffic prediction[J]. Information Sciences, 2013, 237(13):18-28.
[3] 刘建炜, 燕路峰. 知识表示方法比较[J]. 计算机系统应用, 2011, 20(3): 242-246.
[4] Weikum G, Theobald M. From information to knowledge: harvesting entities and relationships from web sources[C]// Twenty-Ninth ACM Sigmod-Sigact-Sigart Symposium on Principles of Database Systems. ACM, 2010:65-76.
[5] Navigli R,Ponzetteo S P. BabelNet: The automatic construction and application of a wide coverage multilingual semantic network[J]. Artificial Intelligence, 2012, 193(6): 217-250.
[6] Aronson A R. Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program[C]// Proceedings of the AMIA Symposium. 2001:17-21.
[7] 钟秀琴, 符红光, 佘莉, 等. 基于本体的几何学知识获取及知识表示[J]. 计算机学报, 2010,33(1): 167-174.
[8] 陈小红, 陈环环, 方之家, 等. 基于领域本体的游戏攻略文本标注算法研究与实现[J]. 计算机应用与软件, 2017, 34(2): 80-86.
[9] 史云放, 武东英, 刘胜利, 等. 基于本体的网络攻防博弈知识库构建方法研究[J]. 计算机应用研究, 2014, 31(11): 3460-3464.
[10] 张波涛, 代晏, 顾进广. 面向工业消防决策的本体构建[J]. 计算机应用与软件, 2014, 31(3): 31-35.
[11] Hyde D. Vagueness, logic and ontology[M]. Routledge, 2016.
[12] 杜方, 陈跃国, 杜小勇. RDF 数据查询处理技术综述[J]. 软件学报, 2013, 24(6): 1222-1242.
[13] W3C. OWL Working Group[EB/OL]. https://www.w3.org/OWL/.
[14] Horridge M, Knublauch H, Rector A, et al. A Practical Guide To Building OWL Ontologies Using The Protégé-OWL Plugin and CO-ODE Tools[M].Berlin: Springer, 2004:3-19.
[15] 刘宇松. 本体构建方法和开发工具研究[J]. 现代情报, 2009, 29(9): 17-24.
[16] 马文峰, 杜小勇. 领域本体评价研究[J]. 图书情报工作, 2006, 50(10): 68-71.
[17] 张宾, 杨家海, 吴建平. Internet流量模型分析与评述[J]. 软件学报, 2011, 22(1):115-131.
[18] Quilitz B, Leser U. Querying distributed RDF data sources with SPARQL[C]//European Semantic Web Conference. Springer Berlin Heidelberg, 2008: 524-538.
[19] Tsarkov D, Horrocks I. FaCT++ description logic reasoner: System description[C]//International Joint Conference on Automated Reasoning. Springer Berlin Heidelberg, 2006: 292-297.