基于粒度原理的知识组织模型构建*
2013-08-11徐绪堪郑昌兴
徐绪堪 郑昌兴 蒋 勋
(1.南京大学信息管理学院 江苏南京 210093)
(2.河海大学信息管理系 江苏常州 213022)
1 引言
随着信息技术飞速发展,产生的各类信息爆炸式增长,形成海量信息或者大数据,然而,人们要从海量数据中获取所需要的信息显得更加困难,特别是用户在解决实际问题时,收集来的信息虽与待解决问题相关,但无法直接形成问题解答,由于这些信息分散、混沌和无序的状态,导致可利用的知识增加不多,用户解决问题感到费时,无法得到满意解答,信息爆炸与问题的解答相对匮乏的矛盾日益突出,如何有效解决这一矛盾是提供知识服务质量和效率的关键。要解决这一矛盾,需要从海量数据中获取有价值的信息后,对获取的信息进行知识点提取和知识关联,并对各类知识进行分类和聚类,按照不同粒度大小的知识对象进行探讨,且在不同粒度上进行问题的求解。
粒度的思想无处不在,粒度原理是一种看待客观世界的世界观和方法论,利用粒度原理的思想思考问题,提供问题解决的质量和效率,从不同侧面、不同角度分析问题现状、关联、推理,从而有利于问题的求解。首先需要获取所需数据和信息,并经过科学处理、整理、关联形成静态知识网,以不同粒度大小的知识体现,实现数据知识化;其次根据用户提出的问题进行静态知识用户问题的动态关联和分析,结合知识粒度大小动态形成支撑问题解决的知识网,实现知识有序化,最终为用户提供高效的知识服务,并促进知识利用、共享、传播和增值。
总之,在用户问题的驱动下,在知识组织的框架下,在粒度原理的支撑下,为解决用户问题、实现高效知识服务为目标,知识组织是基础,粒度原理是手段,如何对知识组织实现数据知识化、知识有序化以及知识服务化。
2 相关文献评述
美国数学家Zadeh在模糊集合论的基础上,首次提出模糊信息粒化和词计算理论,明确人类认知的三个基本概念:粒化、组织和因果,粒化指将整体分解为部分,组织指从部分合并为整体,因果则指原因和结果的关联,推动了模糊逻辑理论及其应用的发展,但在当时未引起普遍的重视。1985年,Hobbs提出一种粒度理论,在人工智能中将一个表示待求解问题的逻辑公式用粒度理论方法分解成若干个小问题或子公式,并分别对这些小问题或子公式求解,最后得到问题的整体求解,并构建相应模型,不仅实现把较大的整体粒度拆成较小的局部粒度,也可以从较小的粒度合并成整体粒度解。
J.R.Hobbs从概念与知识的关系角度揭示了知识的粒度特性,说明抽象程度不同的知识之间存在联系,但没有具体给出表示这种联系的方法,所以无法应用于问题解决。卜东波、白硕、李国杰从信息粒度的角度来剖析聚类和分类技术,利用信息粒度原理的框架来统一聚类和分类,在一个统一的粒度下进行聚类计算,而在不同的粒度下进行分类计算。王国胤、张清华对不同粒度知识不确定性的探讨,发现在分层递阶的知识粒度下部分已有研究成果中的规律不一定符合人们的认识规律。从信息熵的角度提出了一种粗糙集不确定性的模糊度度量方法,证明了这种模糊度随知识粒度的减小而单调递减,弥补了现有粗糙熵和模糊度度量粗糙集不确定性的不足,分析了在不同知识粒度下粗糙度和模糊度的变化关系,其侧重点探讨的是知识粒度下的特征变化,与知识组织融合没有涉及,所以无法直接为用户解决问题。冯琴荣、苗夺谦、程昳等对知识粒度定量划分和表示进行研究,提出一种知识表示法划分粒度表示法,利用划分粒度可定量表示知识的分类能力,首先分析粗糙集理论中知识的代数表示,其次定义知识的划分粒度并研究它的性质,最后证明知识的代数表示和粒度划分是等价的,为知识的粒度表示提供借鉴和参考,但局限于知识粒度化本身的研究,缺乏与知识组织其他过程关联。
蒋黎黎、梁坤、叶爽为了解决分布和多源知识的融合与创新问题,提出受控分众分类法,分类结果提高了知识资源的标注精度,降低了知识组织成本。此外,为了消除本体模块间的异构,构建语义一致的领域本体,将粒度计算理论引入知识融合领域,提出微商空间法,对本体模块进行分解与重构,结果使得构建的领域本体更加简洁和语义一致,这些过程中运用的粒度思想模仿人类思考问题的方式。 赵昌葆以工程知识为背景,以问题求解为目的,建立基于粒度知识的综合求解方法,提出概念模型、应用模型与解释模型三层次集成的工程知识管理模型,并在工艺设计方面进行实践应用,但知识管理模型主要侧重显性工程知识组织和推理,对于特定工程领域有待融入情景和专家经验知识,跨领域知识集成和运用,解决工程问题的求解有待进一步优化。杨人子、严洪森针对知识化制造系统自重构中知识网检索方法过于主观以及重复检索和运算等问题,提出基于信息粒度的知识网的模糊分类和检索方法,解决了自重构运算导致的知识网存在多样性的问题,考虑知识网在“质”、“量”和复杂性等方面的差异,按照用户需求,将知识网库中的知识网进行聚类,使得最终新知识网的复杂性降低,而且可以得到目标知识网满意度的排序,有效提高分类的正确率,消除聚类结果和先验知识之间的主客观不谐调性,但聚类模型中相似性测度函数的不同影响聚类结果的唯一性,对知识网间的完善度和匹配度的获得科学性有待进一步改善。
国内外学者对知识组织理论和体系也进行大量研究,DAHLBERG在 ISKO20 年纪念大会上提出了知识组织迫切需要解决的10个问题。特别强调注意概念(知识单元),概念层(词,术语,编码)以及词句层的识别和表示。张文亮、徐跃权从微观、中观和宏观三个层次全面系统地理解和解释知识组织的概念和理论体系,通过知识发现、知识描述最终实现知识的表达、共享与创新。贺德方从知识组织体系的构建和应用角度,对知识组织体系之间的转化、映射以及标准化等方面研究成果进行梳理和总结,认为用户参与和用户使用优先是知识组织的趋势。毕强分析知识组织系统的相关研究成果并揭示知识组织系统构建从机器可读到机器可理解的发展趋势。王曰芬等研究了面向个性化服务的知识组织机制,将用户需求和用户隐性知识纳入其中,形成了个性化服务的知识组织的过程和方法。夏立新等从行为学角度研究政务门户知识组织,对不同类型的信息用户提供相应类型的个性化服务,形成面向用户特征信息服务和知识门户相结合的政务门户系统。
通过以上分析可以看出,国外内学者对粒度原理的研究主要集中在粒度概念、理论、粒度计算、信息粒度化、粒度聚类/分类等方面,对知识组织的研究则集中在知识组织的概念和理论研究,虽有利用粒度原理来组织知识,但大多集中在词计算、具体工程领域知识的粒度化等方面,缺乏借助粒度原理在知识组织全过程中分析知识的粒度变化规律,虽有基于粒度的知识融合等成果中提出宏观的组织体系,但缺乏对知识组织的实践指导。因此,本文在知识组织理论和方法基础上,借助粒度原理对知识组织宏观构架,以解决用户问题为出发点,将粒度原理思想贯穿于知识组织全过程,规范知识粒度化,探讨知识组织各个环节上知识的粒度变化规律,构建知识粒度模型,形成静态知识组织和动态知识组织两级知识组织模式,为用户问题解决提供有效解决路径,从而实现知识服务的目的。
3 粒度化分类和聚类准备
粒度本来是物理学中的概念,国内学者运用粒度原理模仿人思考的不确定性优势,已经应用到知识管理中,把问题粒化后,经过粗细粒度的反复迭代,用低成本的、足够满意的近似解替代精确解,从而更好地认识和刻画世界。在数据知识化、知识有序化以及知识服务化等过程中都面临不同颗粒度知识之间分类和聚类的不确定性问题,因此对知识进行颗粒化适用于面向知识服务的知识组织,选择一种合适的知识粒度划分算法影响着知识重用、检索、推理、共享等应用效果,所以有必要在进行知识组织之前,对知识的粒度化进行充分准备。
对于采集各类信息或者知识,为了有效地管理和运用,需要对知识进行预处理和分析,由于知识本身具有不确定性和不规范性等特点,而在实际应用过程中需要具备智能化检索和分析,采用粒度的方法对知识进行分类等预处理,将知识逐步颗粒化,划分为不同大小的颗粒,并通过知识粒度度来度量,知识粒度即是是对信息和知识细化的不同层次的度量,通过知识粒度有助于非结构化知识形式化,由于不同粒度的知识是具有推理的、类似性和相似性的数据集合,携带有充分的概念性句子,可以帮助人们了解数据中存在的有意义的联系,其中粒度较大的知识转化成粒度较小的知识的过程即为 “加细”,可以帮助用户得到更加具体和详细的检索结果;粒度较小的知识转化成粒度较大的知识的过程称为 “加粗”,可以提高检索效率。
3.1 知识粒度概念界定
任一粒度大小的知识都由内部属性、外部属性以及情景属性三部分构成,其中内部属性主要是该粒度知识内部关联的描述,外部属性是该粒度知识与其他知识关联的描述,情景属性是在特定环境下与外部情景关联的描述。以下结合粒度原理给出知识粒度相关定义。
定义2(粒度知识的构成):任一粒度的知识主要包括粒度知识的概念与属性、功能和关联三个方面。其中概念与属性主要是描述粒度知识的定义和具有属性特征,功能是粒度知识所能解决问题的描述,关联包括粒度知识内部、不同粒度知识之间以及特定情景粒度知识的关联的描述。
定义3(粒度知识的粗细):设R表示由论域U上一切等价关系组成的集合,设R,R∈R,如果对于任意的x,y∈U,都有 xRy⇒xRy,那么就称 R比 R细,记作 R≤R。
3.2 知识粒度规范
知识粒度化是与所解决问题或子问题相关联或相伴随的,其目的在于保证知识粒度能够适应问题解答。因此,知识粒度的划分是与待解决问题或子问题的粒度相关的,知识粒度的划分须以能够向用户提供所需知识为准则,并以正确支撑问题解答为目标,根据粒度原理进行知识的粒度表示。在解答用户问题过程中,根据知识粒度将问题分解,从不同粒度层次和不同角度来分析和解决问题,不需要再将所组织的知识进行分解或重构,知识的大小(粒度)能恰当地解答当前问题。欲实现这些目标,需要为知识粒度的划分和知识粒度化制定规范,这些规范主要包括文献著录规范、文献标引规范、知识表示规范以及知识融合规范四部分。文献著录规范是对文献著录的原则、内容、格式等方面进行统一科学的规范,实现文献著录标准化;文献标引规范是为了方便文献检索和引用,对文献的引用制定统一的分类标引和主题标引等标引规范;知识表示规范是对知识的属性、关系以及使用过程等按照统一规范进行编码或表示,主要包括叙述性和过程性表示;知识融合规范是对异构知识按照一定规范进行知识转换、重新、共享和集成,并按照统一规范表示产生的新知识。
4 基于粒度原理的知识组织过程
为了满足新形势下用户对知识组织的需求,提高知识服务质量,有必要分析传统知识组织方式存在问题和不足,首先在传统知识组织中采用统一知识粒度大小进行分类和聚类,由于解答问题中需要不同粗细粒度的知识进行支撑,所以用户无法快速获取个性化问题的满意解答,其次各类知识的语义关联不足,导致对用户需求针对性不强,检索结果满意度低,显然传统知识组织无法满足用户日益复杂和全面的需求,同时急需以用户为导向的知识组织来提供高效的知识服务。
基于粒度原理的知识组织过程以服务用户为目的,有效解决问题解答过程中相互矛盾的要求,一种是要支持以积累的实验证据为基础而构成的细粒度知识,一种是要满足粗粒度知识的较高的特异性,因此为了有效解决知识组织各阶段对知识认知规律不确定的问题,系统角度组织各阶段的知识,借助粒度原理构建知识粒度模型,知识组织过程中知识粒度聚类模型(见图1),将各类知识分为知识元、知识单元以及源文献三种主要粒度知识。最低一层是知识粒度最细的知识元层,主要包括通过采集和获取形成粒度较多知识,根据各个知识之间关联程度分成粒度群 D-1、D-2、......、D-p,涵盖用户知识需求、情景最基本概念、公式以及事件等,该层次只能解决比较单一的问题。为了解决稍微复杂的问题需要对各个粒度群进行聚类形成知识粒度较楚的知识单元层,根据用户知识需求不同,通过阈值α来进行聚类算法,粒度群D-1、D-2、......、D-p 分别经过 FM-1、FM-2、......、FM-p 聚类后形成各类知识对应的知识单元 B-1、B-2、......、B-p,包括显性和隐性知识,通过归纳、选择、整理和排序形成各个知识单元B-i之间的横向关联,从而形成如索引、文摘、题录等形式的知识,该过程是一个优化组合的过程,知识元之间的关联并未改变,没有产生新的知识,将知识元该层次上的知识粒度称为I型知识粒度。随着用户知识需求日益复杂化,通过知识单元无法提供有效地解决用户问题,需要对大量知识单元进行分类、推理、挖掘、语义关联等过程形成粒度更大的知识,该过程改变了知识单元原有联系,产生新的知识,形成综述、百科全书、主题库、年鉴等形式的知识,即源文献,同时源文献也可以向知识单元反馈各个知识单元使用情况,以便为调节知识的颗粒度阈值提供依据,优化知识粒度模型,该层称为II型知识粒度。在知识组织过程中,通过知识粒度模型,针对用户的要求,选择适应的层次和大小的粒度知识进行挖掘和推理,最终形成用户问题的最优解,有助于知识组织实现数据知识化、知识有序化以及知识服务化的目标。
图1 知识组织过程中知识粒度聚类模型
4.1 静态知识组织
在细粒度知识元中通过基本的词分析和计算后经过若干个知识节点,结合用户需求和已有各类知识,将获取的信息和数据按照不同类别分成策略知识、描述知识和控制知识,这些知识全部映射为知识元、知识单元以及源文献,结合用户需求形成静态知识网(见图2),静态知识网络对已有知识、文档材料、经验知识、网络资料以及用户需求等信息通过粒度化形成知识元、知识单元以及源文献等不同粒度知识,这些粒度知识根据用户需求按照不同类知识提取后形成策略知识、描述知识和控制知识等三类知识。
4.2 问题分解
用户问题求解是一个由问题空间向解空间映射的过程,由于问题的复杂性及知识的有限性,无法通过一次映射直接得到问题的解,最常用的方法是“分解法”,即将一个困难的问题分解为若干个相对容易的小问题。具体分解方法如下:
根据问题的性质和本身的层次,将整个问题逐级分解的方式分类,分类过程可以按照非均匀粒度标准进行,问题域为Q,则可以分为{Q,Q,....,Q}n各等价类,这n各等价类可以根据需要进一步分类,上一级是下一级的抽象,下一级是上一级的细化,自底向上逐级综合得到整个问题的解。在工程问题求解中,一般按照功能、过程或结构用经验方法分解,本质上与人工智能中的 “问题规约法”一样,都遵循“分而治之”的策略,是复杂问题求解的常用方法,但与“问题规约法”不同,工程问题一般属于病态结构问题,不但问题空间与解空间难以确切描述,而且层次之间及同一层次内存在大量的、程度不同的耦合关系,因此需要根据问题自身的特点确定有效的求解策略。
图2 静态知识网
4.3 动态知识优化组合
对于单个最小粒度的知识元和不同粒度知识点无法有效解决用户的问题,为了达到这个目的有必要分析各知识点之间关联程度和关联性,以便于对粒度知识优化组合与推理后形成较大粒度的知识,逐步实现解决用户的问题的目标。粒度知识优化组合主要包括知识聚类、知识聚合度量化以及连通性分析等部分。
知识聚类对于粒度较小的知识元按照统一和均匀粒度方式进行聚类,使得聚类知识与先验知识协调起来,通过知识聚合度来量化知识之间的关联程度,为了动态优化这些知识提供可供参考的依据。
粒度知识聚合度主要描述知识之间关联程度,即知识点聚合度:假定对知识点M使用的活动(Activity)数目为A(M),同时使用知识元M和知识点M粒活动数目记为A(M,M),则M和 M的聚合度为I(M,M);如果是多个知识点 M,M,……,M,则聚合度为 I(M,M,……M)。 其中
多个知识点的的聚合度表示如下,
一般情况下,从认知理论分析同一时间被使用或激活的知识点或粒度知识数据不得大于9,粒度知识之间可以通过活动相互作用,是一个并发的、自组织的系统,按照粒度大小不同分别获取知识的聚合度,可以对用户不精确的概念给出较清晰的表示,从而更准确、有效地解决实际问题。知识元聚合度主要功能是在大数据环境下实现知识共享和运用提供关联基础,保持知识元长期性、稳定性和适合应用的多变性,在知识组织过程中可以动态修改和设置知识元的聚合度,并根据用户问题进行自适应聚类和连通,形成粒度大小不同的动态知识网络W{m_,m_,...m_}。
5 结语
综上所述,本文以解决用户问题的目的进行知识组织,借助粒度原理对知识粒度概念界定、知识粒度规范化等知识组织准备,设计知识粒度编码和映射,并构建知识组织中的知识粒度模型,将客体知识通过分类和聚类形成知识元、知识单元、文献源等不同粒度大小的知识,在知识组织过程中,首先对静态知识进行初步整理、关联,其次,结合对用户问题以及分解的若干个子问题基础上,对这些知识进行动态关联、分析和推理等优化组合,下一步重点研究将问题解答通过知识地图等形式展现给用户,最终解决用户的问题,实现数据知识化、知识有序化和知识服务化目标。
[1]Zadeh,L.A.Towards a theory of fuzzy information granu lation and its centrality in human reasoning and fuzzy logic [J].Fuzzy Sets and Systems,1997,(19):111-127.
[2]Hobbs,J.R.Granularity.In:Proc off IJCAI[Z].Los Angeles,1985:432-435.
[3]卜东波,白硕,李国杰.聚类/分类中的粒度原理[J].计算机学报,2002,25(8):810-816.
[4]王国胤,张清华.不同知识粒度下粗糙集的不确定性研究[J].计算机学报,2008,31(9):1588-1598.
[5]冯琴荣,苗夺谦,程昳等.知识的划分粒度表示法[J].模式识别与人工智能,2009,22(1):64-69.
[6]蒋黎黎,梁坤,叶爽.基于粒度计算理论的知识融合模型研究[J].计算机应用研究,2012,29(10):3697-3700.
[7]徐丽,丁世飞.粒度聚类算法研究[J].计算机科学,2011,38(8):25-28.
[8]赵昌葆.工程知识粒度化技术及其应用研究[D].西安:西北工业大学,2006.
[9]杨人子,严洪森.基于信息粒度的知识网的模糊分类与检索方法[J].自动化学报,2011,37(5):585-595.
[10]DAHLBERG,Brief Communication:How to Improve ISKO's Standing:Ten Desiderata for Knowledge Orga nization[J].Knowledge organization 2011,38(1):68-74.
[11]张文亮,徐跃权.论知识组织的三个层次[J].图书情报工作,2011,(1):41-45.
[12]贺德方.国内外知识组织体系的研究进展及应对策略[J].情报学报,2010,29(6):963-972.
[13]毕强.数字图书馆知识组织系统建构的发展趋势——从机器可读到机器可理解[J].国家图书馆学刊,2010,19(1):12-19.
[14]王曰芬,熊铭辉,吴鹏.面向个性化服务的知识组织机制研究[J].情报理论与实践,2008,(1):7-11.
[15]夏立新,叶飞.行为学角度的政务门户知识组织与整合研究[J].情报学报,2011,28(3):331-336.
[16]刘晨,殷国富,龙红能.制造工艺知识粒度描述方法与获取算法研究[J].计算机集成制造系统,2008,14(10):1966-1973.
[17]Witold Pedrycz BR,Giancarlo Succi.Knowledge trans fer in system modeling and its realization through an optimal allocation of information granularity[J].Applied Soft Computing,2012,(12):1985-1995.
[18]徐毅.粗细粒度双知识网映射的零部件设计重用方法[D].大连:大连理工大学,2012.
[19]王秀珍,钟宁,刘椿年,等.基于信息粒度和连通强度的优化学习[J].计算机工程与科学,2010,32(5):45-47.