知识元表示方法研究
2015-05-25高国伟王亚杰李永先
高国伟 王亚杰 李永先
(辽宁师范大学管理学院,辽宁大连116029)
知识元表示方法研究
高国伟 王亚杰 李永先
(辽宁师范大学管理学院,辽宁大连116029)
随着数据和信息的日益增长,找到恰当的知识已成为真正的挑战和急待解决的任务。如何表示知识元则是实现知识检索的关键问题,这一问题一直困扰着人们从数据检索、信息检索向知识检索跨越。本文在对现有知识元表示研究评述的基础上,提出了“概念、关系、问题”三元组的知识元表示方法,介绍了该方法的特点,并分别对概念、关系、问题表示进行了形式化描述,最后通过应用实例证明了该表示方法的有效性和实用性。
知识检索;知识元;知识元表示;知识库
知识元的表示是一个符号化和形式化的过程,如何构建相应的知识元形式化描述方法和知操作方法是实现知识检索的关键问题[1]。随着知识管理领域的不断发展,众多学者提出不同的知识元表示方法,并在知识元研究领域取得了一定进展。文献[2]提出用树结构来组织和表示知识元;文献[3]采用了框架表示法,利用二元组标记知识元;文献[4]采用面向对象法,利用三元组表示数值型知识元的结构;文献[5]采用基于本体的知识表示方法建立文本知识元的抽取实验提出了四层知识元模型;文献[6]采用谓词逻辑表示法,利用五元组来表示知识元的结构;文献[7]采用产生式表示法,利用六元组表示数值型知识元;文献[8-9]定义了一个七元组知识元模型:KE:=〈id,T,CT,st,tc,title,did〉;文献[10]抽象地给出了一系列关于模型和知识的概念,进而提出了模型知识元的概念;文献[11]给出面向非常规突发事件演化分析的知识元表示模型;文献[12]通过不同层次模型参数与知识元属性之间的映射,实现通过模型组合网络进行模型组合。
以上研究为知识元表示方法提供了很好的研究思路和方法,但仍存在以下问题:(1)二元组、三元组表示方法局限于文本知识元的表示及建构,仅侧重于对知识元客体的描述,忽略了对知识元之间关系的表达;(2)四元组、六元组、七元组的表示方法,使得知识元的结构化程度日益增高的同时,表达方式显得冗长,知识元之间关系的描述工作量大,造成推理不完备的隐患;也增加了计算机对自然语言处理的难度,造成在实际的中文文本知识元抽取过程中,计算机对语义内容的误解,使得知识元抽取的准确率下降,造成文本结构的破坏。
本文借鉴本体论和认识论,从客观知识世界本原角度出发,从实体和关系层面约束知识元,进而对这些约束的知识元进行分析,在模型知识元[10]的基础上,进行相应扩展,提出了“概念、关系、问题”的知识元表示方法。该表示方法主要揭示了知识元属性间约束,以及知识元之间的关系,对知识元的粒度性做出形式化的描述,从根本上提高了计算机对文本知识元抽取的准确率。
1 “概念、关系、问题”知识元表示方法的特点
“概念、关系、问题”知识元表示方法基本出发点是[13]:客观知识世界综合体系描述了人类对客观事物的总体认知,已有认识对未知问题的求解具有指引和向导作用,问题和目标的逻辑关系,使得我们可以通过问题求解模型,依据已有知识对未知问题进行解答,从而实现智慧层面上的目标属性。因此,“概念、关系、问题”知识元表示方法具有如下优点:
1.1 继承性
“概念、关系、问题”的三元组结构,坚持以问题为出发点,通过对客观知识的概念和关系的整合,以达到求解的目标。这样就带来了天然的层次性和结构性。在对问题的求解过程中,使得对象能封装复杂的行为,使知识元表示的细节对使用者保持透明,从而降低了计算推理的复杂度,通过继承性减少了知识元表达的冗余,知识库的修改、增加、删减以及使用和维护都十分方便;对一个知识单元进行修改不会影响其它单元,每一知识单元中所包含的知识规则有限,推理空间小,提高了推理效率[14]。
1.2 扩展性
“概念、关系、问题”的三元组知识元表示方法是将对象看成了客观世界及其映射系统的最小单元,因而事物都可以由这些最小单元聚集而成。该三元组表示方法的特征是不断的细分,这和知识结构的不断扩展是一致的[15]。
1.3 互操作性
“概念、关系、问题”的三元组表示方法表达了领域内重要概念、属性、问题及其相互关系形式化描述的基础,这种形式化描述可成为计算机系统中可重用和共享的组件,可以在不同的建模方法、范式、语言和软件之间进行翻译和映射,以实现不同系统之间的互操作和集成,从而降低计算机对文本知识元内容的误解,提高知识元的抽取准确率[16]。
2 “概念、关系、问题”知识元表示方法
按哲学观点,一个客观知识总是可分的,可以分成单元、元素,这些细分的部分都是客观事物的子事物,是一种客观实在,这些客观实在可以被称为知识元。客观存在的知识元是一个对象,对其的描述涉及概念、属性、关系等方面。
从事物普遍联系的角度,构成一个客观知识的所有知识元都是相互联系的,这种联系体现在知识元之间相互依赖、相互作用关系。任何一个客观事物或者任一领域的知识,都可以分解为实体和关系加以描述[17]。
而问题是人的主观目标或要求与客观事物系统状态的差异,在对客观知识世界中,问题是关于人们主观目标和客观事物系统的集合[18]。
这样针对知识元的表示可以从概念C,关系R,问题P的表示进行,从而形成了客观知识世界的“概念——关系——问题”体系,即CRP体系。
2.1 概念的表示
2.1.1 概念的定义
人们对客观知识世界的认识经历了一个漫长的过程,从感性认识到理性认识是一个循序渐进的过程,人们把感知到的信息收集起来加以概括和抽象就得到了概念,因此概念能够反映出事物的本质属性。反之如果给定一个事物的概念,那么对该事物而言,必然存在着一系列对特征、属性、数值等的描述。
2.1.2 概念的分类
通过对概念的类型进行划分来满足处理不同问题时的需要。依据概念的定义,可以有如下两种分类方式:(1)描述型概念,即对一组给定的概念,它们的外沿描述如果是针对名词解释、数值、问题、信息等,那么可以把对应的概念划分为一个概念类。(2)过程型概念,即对一组给的概念,他们的外沿描述如果是针对步骤、方法、定义、原理等,那么可以把对应的概念划分为一个概念类[19]。
2.1.3 概念的数学描述
对于一个具体的知识元m(m∈K),如果采用“概念、关系、问题”的体系来表示的话,概念的表示就是CRP表示体系的基础,它是由基本概念、属性特征以及相关数值构成,有如下数学描述;设Nn为它对应客观事物的名称,设Cn为它对应已知事物的特征状态集,设Vn表示它对应的量值状态集,那么对应的概念集合可表示为如下一个三元组:
Kn=(Nn,Cn,Vn)
对于一个已知事物,有Nn≠ø,Cn=ø,Vn=ø。Cn为至少是定性描述的状态集,Vn为对已知事物状态定量描述集。而当对一个客观事物认知达到较高层次时,一般Cn为定量描述的特征状态集,Vn为数理逻辑关系和函数描述的量值状态集,从而使这一模型联系到相应的数学模型,进而方便了后续基于计算机平台上的数据运算。
2.2 关系的表示
2.2.1 关系的定义
依据客观事物是普遍联系的哲学思想,关系反映了事物及其特性之间的相互联系,即事物之间存在着关联关系。构成事物的概念和属性之间的相互联系形式多样,这是一个具体关系的概念。由于选取的参照物不同,在一定条件下,概念和关系之间可以相互转化,关系对概念起到解释说明的作用,即关系本身也具有概念和属性等特质[20]。
2.2.2 关系的分类
关系是事物之间相互因果、相互影响与相互作用所形成的联系、交往和组合。由于关系在运用和处理的过程中,可以和概念相互转化,为了能够更好地表示事物之间的关联关系,有必要对关系进行分类:(1)描述型关系,即基于事物之间关系的概念进行分类[21]。概念是按照特征、问题、数值等进行组织和管理的,因此关系也可以按照特征、问题、数值的结构方式进行描述。(2)过程型关系,即基于事物之间相互作用的过程进行分类。过程是按照步骤、方法、定义、原理等进行组织和管理的,因此关系也可以按照步骤、方法、定义、原理的结构方式进行描述。
2.2.3 关系的数学描述
关系是对事物概念、属性之间相互关联的解释说明[22]。对应一个具体的知识元m(m∈K),如果采用“概念、关系、问题”体系来表述的话,有如下数学描述:设r(r∈K)为Rm×Rm上的映射关系,一般情况下,Cr表示特征、属性、隶属等;构建具体的映射函数:
其中Rir称为起点属性状态集,Ror称为目标属性状态集,fr为对应存在的具体映射函数,那么对应的关系集合表示为如下一个四元组:
其中,Cr除了可描述特殊属性外,还可扩展描述其如何辨识的方法特征。这里Cr≠ø,≠ø,ø,fr≠ø。
2.3 问题的表示
2.3.1 问题的定义
问题是人们对客观世界的认知和改造过程中,客观目标和主观预期之间的差异。问题是标准模糊所带来的结果,标准不能解决问题,只能判断问题产生的原因所在。反之给定一个问题,必然存在已经明确知道的,关于问题的特征描述,即问题的初试状态;也存在关于构成问题结论的属性描述,即问题要求的答案或目标的状态[23];还存在着问题之间关于解决障碍的数学描述。
2.3.2 问题的分类
一个具体问题除了具有特征描述,还有相应的属性描述。问题的属性回答了目标现在的状态,为后续问题求解提供必要的信息。对于一个问题集合,可以按照问题的属性进行分类:(1)描述型问题,即通过名词解释、数值、特征等对问题的初试状态和目标状态予以描述;(2)过程型问题,即通过步骤、方法、原理、定义等对问题的初试状态和目标状态予以描述[24]。
2.3.3 问题的数学描述
对应一个具体的知识元m(m∈K),问题是智慧层面上对实现目标的出发点和归宿,所以问题的表示是CRP体系的核心,是基于目标的基本状态解决预期和目标之间差异的关键。因此有如下数学描述:设Cp为问题的特征状态集,Pp为问题的属性状态集,Rp为问题之间的关系集,设p∈K,则问题的集合可以表示为如下一个三元组:
Kr=(Cp,Pp,Rp)
其中,Cp为初试问题的可测特征描述。当Cp=0时表示初试问题的特征状态不可描述;当Cp=1时为可描述的;当Cp=2时为常规可测度的;当Cp=3时为随机可测度的;当Cp=4时为模糊可测度的。
3 实例应用
本章以监督信息的相关知识元来验证基于“概念——关系——问题”的知识元表示方法。运用“概念——关系——问题”的知识元表示方法对安全事故涉及的相关知识元进行抽取,并将抽取后的安全事故知识元整理分类,在此基础上按前文提出的三元组结构进行表示,从而论证其科学性及有效性。
3.1 知识元获取
知识元的获取是为用户提供知识检索的基础。在从文本内容获取知识元的过程中,运用“概念、关系、问题”模型的知识元表示方法,具体操作如图1,基于“概念、关系、问题”知识元表示方法对文本知识进行抽取,知识元获取引擎分别以概念约束、关系约束、问题约束,为截取条件,获取的新知识元,然后通过挖掘、筛选、融合等技术,将处理后的知识元按照不同属性分类,进而建立不同属性的知识元扩展集合,最后将这些知识元集合存储到知识库中[25]。
3.2 知识元的表示(以监管信息知识表示为例)
通过对监管信息的相关知识进行“概念——关系——问题”的知识元抽取,可以得到如下的相关业务知识元:
经营行为监管(违规日期,违规内容,检查单位,检查内容,检查结果,检查日期,整改要求,整改期限)
年度核查(年审年份,审验日期,年审内容,年审结果,核对情况,审验机关)
质量管理检查考评(考评项目,考评内容要求,考评标准,考评备注)
检查考评反馈通知(被检查企业,责任部门,发出时间,检查考评结论,处理情况,处理意见)
安全事故(事故名称,事故编号,事故类别,事故过程,事故地点,事故位置,事故处理,事故损失,事故后果,事故级别,伤亡人数,事故原因)
上述业务知识元的表示方法如表1、表2、表3所示(此处只给出经营行为监管、年度核查、安全事故3个知识元的表示方法)。
图1 知识元抽取流程图
表1 经营行为监管相关知识元表示
4 结论
本文首先论述了目前知识元表示方法存在的局限性[26],从客观知识世界的角度,提出了一种基于“概念、关系、问题”的知识元表示方法,该方法将知识按照属性差异分为概念知识元结合、关系知识元集合和问题知识元集合,并通过构造数学映射辅助对关系和问题的描述该方法是以解决问题为出发点,因此具有继承性、扩展性和互操作性。最后通过完成对知识元的抽取实验,实现了对监管信息的相关知识元的表示,从实践的角度论证了该方法的有效性和科学性。目前的研究仅构造了一般条件下的表示方法,在相关信息不完备及描述模糊等极端情况下对知识元的表示存在影响,完善知识元表示方法等问题将在后续研究中继续深入。
[1]杨建林.信息技术导论[M].南京:南京大学出版社,2009.
[2]Zou Junhua,Liu Qingtang.Knowledge Element Model for Knowledge Abstract and Fusion System,New Trends in Information and Service Science,2009.NISS'09.International Conference on June 30 2009-July22009:23-26.
[3]周宁,余肖生,刘玮,等.基于XML平台的知识元表示与抽取研究[J].中国图书馆学报,2006,(3):42-46.
[4]温有奎,徐端颐,潘龙法.基于XML平台的知识元本体推理[J].情报学报,2004,23(6):643-648.
[5]Zhao Feng,He Weiping,YangHaozhong,et al.A Study of Internet-knowledge Acquiring Method to Aid Thinking in Product Design. Computer Science and Information Techology,2009.ICCSIT 2009. 2nd IEEE International Conference on 8-11Aug,2009:472-475.
[6]毕经元.基于知识元链接的汽车零部件知识管理系统[J].浙江大学学报,2009,43(12):2209-2212.
[7]肖洪,薛德军.基于大规模真实文本的数值知识元挖掘研究[J].计算机工程与应用,2008,44(30):150-152,222.
[8]Chang X,Zheng QH.Knowledge Element Extraction for Knowledgebased Learning Resources Organization.Heidelberg:Spinger,2008:102-113.
[9]Hu Y H,Li H,Cao Y B,et al.Automatic Extraction of Titles from General Documents Using Machine Learning.Inf.Process Manage,2006,42(5):1276-1293.
[10]王延章.模型管理的知识及其表示方法[J].系统工程学报,2011,(6):128-134.
[11]陈雪龙,肖文辉.面向非常规突发事件演化分析的知识元网络模型及其应用[J].大连理工大学学报,2013,(4):615-624.
[12]杨德宽,王雪华,裘江南,等.基于知识元网络的突发事件模型组合调用[J].系统工程,2012,(9):87-93.
[13]朱晓芸,陈奇,杨枨,等.决策支持系统中的广义知识元及模型库[C]∥东北大学出版社,1993:791-794.
[14]袁名依.基于知识元本体的知识统一表示[J].现代计算机,2008,(283):46-48,57.
[11]MAKI D P,THOMPSON M.Mathematical Models and Applications,with Emphasis on Social,Life,and Management Sciences[M].Englewood Cliffs,New Jersey:Prentice-Hall,1973.
[12]MORENO Y,NEKOVEE M,PACHECO A.Dynamics of Rumor Spreading in Complex Net-works[J].Physical Review E,2004,69:066130.
[13]NEKOVEE M,MORENO Y,BIANCONI G,et al.Theory of Rumour Spreading in Complex Social Networks[J].Physica A:Statistical Mechanics and its Applications,2007,374(1):457-470.
[14]匡文波,郭育丰.社会治理视域下网络谣言消解模式探析[J].西北大学学报:哲学社会科学版,2013,43(3):134-137.
[15]阮璋琼,尹良润.党报微博运营现状及发展路径[J].中国报业,2012,(1):58-60.
[16]刘金荣.基于SNA的突发事件微博谣言传播研究[J].情报杂志,2013,(7):78-82.
[17]石秋灵.当今微博谣言分类及影响谣言传播效果的关键指标研究[J].中国传媒科技,2013,(8):128-129.
[18]韩国良,孙海霞.微博谣言产生的原因及对策探析[J].采写编,2014,(3):54-55.
[19]上海交通大学发布2013舆情蓝皮书[EB/OL].http:∥scitech. people.com.cn/n/2013/0822/c1057-22656071.htm.
(本文责任编辑:孙国雷)
[15]王宇,刘淼.一种基于知识元的期刊文献知识仓库构建[J].情报理论与实践,2013,(8):91-94.
[16]李珊珊,王宇.基于HNC理论的期刊文献知识元检索[J].情报杂志,2013,(9):190-194.
[17]陈雪龙.基于决策问题形式化的模型构造方法[J].计算机工程,2008,(5):51-53,56.
[18]陈雪龙.基于实体——关系——问题知识表示体系的决策模型构造方法[J].系统管理学报,2007,(3):326-331,336.
[19]仲秋雁,郭艳敏,王宁.基于知识元的情景生成中承灾体实体化约束模型[J].系统工程,2012,(5):75-80.
[20]陈雪龙,董恩超,王延章,等.非常规突发事件应急管理的知识元模型[J].情报杂志,2011,(12):21-30,26.
[21]王宁,黄红雨,仲秋雁,等.基于知识元的突发事件衍生网络仿真平台的设计与实现[J].情报杂志,2012,31(11):150-155.
[22]许永涛.基于E_R_P建模体系的政务资源元数据表示模型[J].计算机工程,2007,(10):49-51,97.
[23]于淼.基于实体——关系——问题建模体系的政务资源整合研究[J].系统工程与电子技术,2004,(5):647-651.
[24]温有奎.知识元挖掘[M].西安:西安电子科技大学出版社,2005.
[25]杨建林.知识表示与知识相关性度量研究[J].情报理论与实践,2011,34(5):1-5.
[26]马创新.论知识表示[J].现代情报,2014,34(3):21-24,28.
(本文责任编辑:孙国雷)
Research on the Method of Knowledge Element Representation
Gao GuoweiWang YajieLi Yongxian
(School of Management,Liaoning Normal University,Dalian 116029,China)
Lacking knowledge element representation,with the increasing of data and information growth,it has been an urgent problem to be solved.How to represent knowledge element is the key to achieve the knowledge retrieval.The paper proposed a representation method of“Concept-Relationship-Problem”,Through giving a kind of recessive description method of relations between attributes of knowledge elements,the incompleteness of knowledge inference is conquered.Therefore,the goal of comprehensive knowledge support to knowledge retrieval could be realized by means of the proposed knowledge element model. In the end of the paper,an example is analyzed to prove the efficiency and practicability of the knowledge element model.
knowledge element;knowledge element representation;knowledge-based
10.3969/j.issn.1008-0821.2015.03.003
G302
A
1008-0821(2015)03-0015-04
2014-12-30
国家自然科学基金项目“客观知识体系中的语义传递模型研究”(项目编号:71073017)研究成果之一。
高国伟(1973-),男,副教授,博士,研究方向:移动电子政务、信息资源管理和知识管理。