面向知识服务的知识库逻辑结构模型*
2013-08-11徐绪堪
蒋 勋 徐绪堪
(1.南京大学信息管理学院 江苏南京 210093)
(2.无锡城市职业技术学院 江苏无锡 214153)
1 引言
知识服务对信息组织有很高的要求,强调数据间的有机关联,尤其要求通过数据间的联系从而形成相关知识。而如何有效存储、管理、组织和更新大规模的知识,如何有效利用存储的知识进行推理和问题求解,并更有效地支持知识服务,这是目前图书情报领域一个重要研究课题。实现知识服务的途径有多种,其中基于专家系统提供的专家级知识,能实现一种高端的知识服务。专家系统中知识获取的核心组成部分是知识库,尽管计算机与人工智能技术的迅猛发展支撑着知识获取手段的提升,但“知识匮乏”与“信息海洋”的对峙局面仍然存在。
为解决“知识匮乏”这一瓶颈问题,本文将从知识服务的角度架构知识库的内在逻辑结构模型,使得健全、合理的结构模型支撑起用户不同的服务需求,并使资源和服务有效整合,消除知识组织与知识利用之间的鸿沟。
2 相关研究述评
从知识组织的研究视角关注承载知识的知识库研究,王知津等全面、系统、深入地分析了知识组织的理论、方法及应用,首次对知识组织的环境进行了考究,对知识组织的十个方面加以论述,其中就指出实现知识的有序化是知识组织的重要目标之一,而知识有序化包括了承载知识环境的有序化,并给出了支持知识环境有序化的技术手段。赖茂生等深入研究了知识组织领域的几个前沿问题:本体与传统知识组织工具改造的研究、受控语言与自然语言融合的研究、网络环境下知识组织研究及Web2.0与自由分类法,这些前沿问题的研究为进一步展开知识库的探索奠定了坚实的基础。贺德方从知识组织体系 (Knowledge Organization Systems,KOS) 的应用角度,梳理了知识组织的主要成果,归纳了知识组织体系之间的转化、映射、标准化等方面,这些研究理清了从知识组织角度研究知识库结构的思路。王军教授的研究则从网络环境下对知识结构进行系统化描述与说明,以此为基础推动信息组织、信息表示和基于内容的信息检索等应用发展。从知识服务的研究角度,毕强纵观了国内外学者关于知识服务研究侧重点不同,并揭示了信息资源只有定位描述而缺少资源内容的确切描述的不足,提出了知识库是实现知识服务的基础和核心,通过知识库将提高知识利用和共享效果。董慧深入研究了本体知识表示的知识库,避免了不同数据源中知识异构带来的问题,在这基础上并首次提出了历史领域的专家系统模型。王曰芬等研究了面向个性化服务的知识组织机制,形成了个性化服务的知识组织并将知识服务瞄准了科技咨询,给出了将社会网络分析与社会网络可视化的先进技术引入专家库的建设中,提高了科技咨询决策效果。李广建指出在分布式环境下为适应OpenURL需要,知识库的有效利用是关键问题,知识库不仅是整个系统的核心,也是整个过程的中枢并且为构造扩展服务链接提供规则,认为只有健全、合理的知识库才能提供用户尽可能合适的知识服务。知识库的应用远不局限在图书情报领域,对于医疗、制造等行业,以及对其他学科的科学研究都起着重要的支撑作用。钱平等具体针对鳜鱼疾病的诊断中,利用了知识表示与语义推理等相关技术,积累了相关病例,搭建了针对诊疗需求的知识库,为鱼病诊断专家系统建立高智能、可共享与复用的诊断推理应用模型。李少波等分析了中药制药行业对制造执行系统的需求,提炼出各流程的知识库,包括设备知识库、过程经验知识库、生产管理知识库、原材料知识库等,并利用每个应用知识库进行了知识的获取、融合和重用,最终给出系统的功能模型以实现生产过程的最优计划与调度。孙勇等在其科研过程中发现了基本蚁群算法易陷入局部极值且收敛速度慢等问题,将知识库引入该算法中,其贡献在于知识库囊括了算法知识、规则知识和案例知识,存储了定性或定量的算法参数、参数选择方法及历史数据,最终提出了基于知识库的动态蚁群算法,经过理论分析和实验验证,该算法在优化性能、时间性能和鲁棒性等均有一定优势。
国外关于知识组织、知识服务、知识库的研究更重于实践方面,知识组织研究主要是以NKOS(Networked Knowledge Organization Systems/Services)作为主要的研究领域开展相关研究。随着数字图书馆的研究与发展,NKOS已经成为图书馆和信息科学领域最重要的研究课题。特别针对语义化描述的分类表、叙词表、主题词表、地名辞典等已经在国际图书情报界有较多的研究和实践,如美国国会图书馆发布的《国会图书馆主题词表》的SKOS语义描述版本。进一步基于 NKOS向机器和各类智能应用提供服务,通过构建 NKOS的目标是为搜索引擎、学科门户、内容导航、自动分类等应用程序提供知识服务,其途径是提供开放的、统一的查询接口和访问协议,如典型的SKOS API。国外关于知识库的研究正探索进一步发挥其专业化知识服务的特色。典型的是雪城大学、华盛顿大学开展的Reference Extract研究,试图将知识库中专家参引的网站作为高可信度的信息源,从而为用户提供高可信度的搜索体验;并基于知识库研究知识挖掘和知识发现等服务,已开发出能提供热点知识群导航知识库系统。围绕知识库架构与建设方法、知识组织与分类方法、知识库的检索服务、知识挖掘与发现,并从参考咨询服务的用户需求出发,对联合参考咨询知识库的发展趋势进行了探讨,更好地利用知识库的功能以提升图书馆的参考咨询服务能力。
值得注意的是,目前在图书情报领域关于知识库的研究主要聚焦在机构知识库(Institutional Repository,IR)。国际上注册IR超过2200个,中国科学院也有超过70个研究所的IR,IR正成为机构知识基础设施和社会学术信息交流体系的重要成员。以张晓林教授领衔的中国科学院国家科学图书馆研究团队围绕IR的技术支撑、资源支持、研究与咨询支持、法律支持、环境支撑等各方面来管理知识成果,形成对知识成果使用进行许可的框架。张旺强等侧重IR的技术层面进行研究,利用OpenKOS的开放服务接口对IR中知识产出进行主题标引和自动分类,方便用户使用主题词浏览和检索知识产出。
通过上述已有研究成果分析可以看出,知识库的研究对支持与完善知识服务的整体性至关重要。目前,在图书情报领域,知识库的理念和方法基本贯彻在整个知识服务过程的始终,语义关系计算使用了语义知识库、动态知识点的生成是基于专有术语知识库开展的、知识地图的描绘是在相关知识库的基础上进行的。知识库的根基在知识组织,通过对知识组织的研究希望数据库存储的数据、信息和知识能够满足用户解决问题和进行决策的需求,所以,对知识组织的研究不是将知识停留在数据库中组织,而是注重如何将数据在数据库中通过某种关联产生出知识并服务于用户。针对知识库的相关研究归纳起来,呈现如下现状:①目前,在图书情报领域关于知识库的研究主要聚焦在机构知识库。国外在机构知识库方面起步较早,已经有大批机构知识库建成并投入使用,而国内还比较薄弱。对机构知识库的关注大多数是研究其对外能实现的应用,如提供的知识浏览、数据统计、为科技类公共服务活动提供文化氛围、以多种形式向读者推送专题资源等等。概括起来,关于机构知识库的探讨基本围绕在信息资源长期保存能力、提升信息获取效率、促进学术交流与知识共享等三个方面。②图书情报领域近期也出现了一系列关于专业知识库的研究。譬如词汇语义知识库正在被应用于信息检索、信息提取、问答系统、自动文摘等方面,逐步成为自然语言处理的基础资源。专业知识库的研究也围绕具体应用为主,但不同的专业知识库表现出不同的需求和不同的解决方案。如词汇语义知识库迎合了本体化与多语化的大趋势,关于它的研究都从不同方面弥补了其共通的知识共享与知识交流上的不足,体现出知识库的发展朝着应用多元化的趋势。从以上两个现状不难看出:现阶段关于知识库的研究偏向于应用,应用的多元化必然促使知识库的完善,知识库的发展,其瓶颈在于自身的结构,而关键更在知识组织水平。目前,在图书情报领域涉及知识库一般规律的研究很少,关于知识库结构的研究更少。已有的研究中没有系统地去研究其知识组织模式和具体结构问题,或者说没有从知识服务的角度去深刻地考察知识组织体系和构成,没有仔细地去研究过哪些知识服务需要用到知识库,其中这些服务对知识组织有哪些特殊的要求,并根据这些要求,应该如何组织知识库。大部分关于知识库模型的研究还处在框架搭建的初级阶段,还在不断探索和完善中,离知识服务的应用平台还有很大距离。
3 知识库与知识组织、知识服务
知识组织目标是为了向用户提供更高效、更有针对性的知识,以实现知识服务。可以说知识组织是知识服务的支撑。因此,知识组织的设计来自于用户需求的驱动,需要遵循从宏观到微观的设计理念,确保知识组织实现知识服务、提升服务效率。针对“大数据”时代的信息泛滥、信息无序,大量过剩等特点,迫切需要能够将其科学处理、整序、关联,最终形成能够解决用户问题的知识。实现这样的目标需要将杂乱的信息蜕变、升华,使之有序、关联和可用,也就是说知识组织必须保证信息知识化、知识有序化、知识服务化,知识库是这项工作的落实载体之一。可见,知识库的工作与知识组织、知识服务是密不可分的。
3.1 三者的关系模型
知识库与知识组织、知识服务在工作上是紧密关联的,并且三者在逻辑上严密相关,从宏观上将三者抽象表达成图1所示关系模型,每一层都为其上一层服务,层层相扣。知识组织将知识源提供的各类信息,经过数据清洗、加工处理,提炼成可供知识库存储并管理的知识;知识库将针对某一领域问题求解的需要,采用某种知识表示方式在计算机中存储、组织、管理,使互相联系的知识片集合逻辑上可推理,可进行复杂问题的求解;最终面向知识服务提供有针对性、高质量的知识,可以说知识的质量、知识间的语义关系决定知识的价值。
图1 知识组织、知识库、知识服务三者关系模型
知识库在层次模型中处于中间层,既面向知识服务也基于知识组织,为此,更需要从知识服务的角度去深刻地考察知识组织体系和构成,必须仔细地去研究哪些知识需求需要用到知识库,这些知识需求对知识组织有哪些特殊的要求,并根据这些要求,该如何设计知识库结构。知识库的构建不是一次性完成的,随着知识服务要求不断提高,将反馈促使知识库更新,知识库的结构也需不断的优化。
3.2 知识库结构的研究内容
知识库结构研究就是研究知识库的架构,研究如何建立知识结点之间的语义关系,研究如何构造知识库内部结构更便于问题求解和逻辑推理。因此,知识库能否快速且准确地响应用户问题,解决多领域、多学科的协同决策过程带来的复杂多源知识获取和融合问题,完成跨平台、跨系统进行的大规模知识共享、重用、管理等问题,这些问题均对知识库的结构提出了更高的要求。
在课题“面向知识服务的知识库结构研究”中研究的着眼点主要考察面对上述不同的知识需求来架构知识库结构的一般规律,使之具备一定的通用性。为此,课题从框架结构和逻辑结构两个视角来研究知识库的结构,而本文探讨的是知识库逻辑结构。知识库逻辑结构是根据推理范畴的结构决定的,而范畴是由对象及彼此间的映射关系决定,所以知识库的逻辑结构可以形象地描述成知识点之间存在的映射关系的集合。可以预见:一方面,知识库中知识结点数目是庞大的,且结点间的映射关系的数目是知识结点的幂指数形式,数目更是巨大;另一方面,知识库中的很多新规则是新产生的且为暂时的,这些不能通过既定的基础知识库的挖掘获得。
3.3 知识库逻辑结构的研究对知识服务、知识库的作用
知识库逻辑结构决定了知识服务的角度和潜能,科学合理的知识库逻辑结构对知识服务的能力提升具有很大的推动作用。对知识库逻辑结构中所涉及各环节要素进行理论及实践上的探讨,这种探讨有助于解决从知识源到知识获取过程中的瓶颈问题,为最大限度地克服海量数据增加引起的算法失效及固有的知识库实时维护困难的问题。这一系统化的研究紧紧围绕知识库逻辑结构并凝练了知识组织的相关理论,呈现出知识库是实现知识服务的基础和核心,最终还以知识服务为落脚点,为拓展知识服务奠定了基础。
知识存在知识库中,数据存在数据库中,两者“对接”将会促进知识库理论机理的发展。针对数据子类结构形式构成的数据库与基于属性间语义关系的知识库,需要在这两者之间建立对应关系,通过数据库的子类结构和知识库的结点网络结构,可以构建两者之间的逻辑等价关系,这种关系打破了传统数据库知识获取的封闭系统,当其与知识库相结合,从知识库的高度,可以更深层次的理解数据库的价值,拓展知识库的效能。这种逻辑结构在功能上形成了相对于基础知识库是一个开放、优化的可扩体,有助于实现知识推理和知识挖掘。
4 知识库逻辑结构模型
知识库逻辑结构的研究,实际上可以归结为知识点间存在关系的研究。知识点及其相互关系希望通过一种简约的表示方法来描述这些关系,并支持知识的推理活动。衡量知识的简约表示效用需要考量其概念效率与计算效率两个维度,这两个维度的特点是“厚此薄彼”,各知识点表示是否统一且准确,由底层的核心工作数据清洗决定,数据清洗是关系建立、推理质量、计算效率的保证,只有高质量的数据清洗,才会有高质量的知识库服务水平(研究思路可概括见图2)。
图2 知识库逻辑结构的研究思路
4.1 知识点之间的关系
(1)数据库与知识库的对应关系。建立数据库与知识库间的对应关系,也是一个知识发现过程。知识发现(Knowledge Discovery)是从大量的数据中挖掘潜在有用的、用户可能感兴趣的并能被其理解的知识的过程。知识发现是知识点及其相互间逻辑关系的原始积累过程。为此,揭示数据库与知识库在各自特定构造下的一一对应,构建数据库与知识库的内在“通道”,并将数据库和知识库统一在一个知识发现系统中,这是构建知识库逻辑结构首先要关注的问题。
不能孤立地看待知识库结构,知识库结构和所关联的数据库是密切相关的,也就是说随着数据库中数据的积累,对应的知识库结构也将随之发生变化,数据库与知识库间的对应关系决定了知识库中各知识点之间的逻辑关系。所以,构造知识库结构必须将相关数据库及其所有数据综合起来考虑。
在真实的数据库中,根据数据子类结构形式构成的发掘数据库的可达范畴与基于属性间关系的挖掘知识库的推理范畴,两者之间建立等价关系,这一等价关系为数据库与知识库间定向的知识挖掘与知识搜索奠定了理论基础。进一步可认为,依据子类结构构建的数据库和根据知识点网络构建的知识库逻辑等价。由此可以给出,知识库中的知识点与数据库中的数据子类结构之间存在一一对应关系。这一对应关系打破了传统数据库的知识发现的封闭系统,使数据挖掘从知识库的高度、从语义关联角度去发现更深层次的知识,也保证了知识发现成果直接用于知识服务。
(2)知识库中知识点间的映射。知识库与数据库最本质的区别在于知识库中记录有大量规则,以保证能够对知识库进行更深层次的知识挖掘与提炼,这些规则通常通过能够反映各知识点之间关系的二维数组来表示。因此,从微观层面考虑知识库中存储结构的规则必须能支持二维数组的体现。
定义 1:规则 r[s,d]=(s→d)中的知识结点 s为规则 r下的起始知识点,d为规则r下的目标知识点。
这样我们最初考虑的一个简约知识库的结构如表1所示。
表1 数组型简约知识库的结构
从表1可以看出,每个规则对应一个固定的数组位置。每当挖掘出或增加一个新的基础知识时,对其进行简约分解后,即可确定其在数组中的位置。对相应位置规则的参数进行修正即可。显然,如果建立这样一个知识库,完成知识库的一致性校验是十分方便的。
知识库逻辑结构是根据推理范畴的结构决定的,而范畴是由对象及彼此间的映射关系决定,所以知识库的逻辑结构可以由定义1形象地描述成(si→dj)的集合。符号“→”表示知识点之间存在的推理关系。可以预见:一方面,知识库中知识点数目是庞大的,且知识点间的推理关系的数目是关于知识点的幂指数形式,数目更是巨大;另一方面,知识库中的很多规则是新产生的且为暂时的,这些不能通过既定的基础知识库的挖掘获得。由此来看,定义1的描述方式显得比较朴素,且用这样的方式描述知识库的逻辑结构将会较为复杂,需要进一步进行优化。
表1也反映出,这样的知识库存储在软件上是很难实现的。首先,这将是一个庞大的数组。其中的m与n是全体属性程度词(语言变量值)的组合问题,有可能造成组合“爆炸”。其次,由于其中的很多规则暂时的,是不能通过基础知识或由挖掘产生的知识分解产生的,因此在某种程度上可以将表1看成是一个稀疏矩阵,以数组的形式存储将浪费极大的空间。因此,这样的数组型简约知识库的结构还不完美,但要考虑的知识库结构应相似于该结构,同时考虑三个因素:
其一,由用户根据自己的需求提出知识库的主题设计,不同的主题有一套相互映射的知识子库。
其二,根据知识的成熟程度,对各个主题下的知识库划分三个层次:基础知识库、派生知识库和临时知识库,其中:基础知识库:存放用户感兴趣某一主题下成熟的知识,这些知识来源用户自己输入或经数据挖掘后由用户确认的知识;派生知识库:同样存放为用户针对某一主题感兴趣的知识,而这些知识源为挖掘出的用户认为有一定价值,但不够成熟的知识;临时知识库:存放那些未经过用户识别过的临时知识。
其三,针对一个主题设置知识点链接表,将现有的起始知识点与目标知识点的组成和语义环境的关系记录下来,形成一幅完整的知识地图。
知识库划分为三个层次后,优化了知识库的结构,也缩小了用户的知识查询范围,对于任意一个层次的知识库逻辑结构更加清晰。知识点链接表中各结点与分解后的规则保持一致,便于规则的存储。并且基础知识库与派生知识库的表示方式直接反映起始知识点与目标知识点的关系,这在具体实现SQL语言进行推理非常便利。多层次知识库为进行基于知识库的知识发现提供了知识保证。
(3)知识点链接的形成。知识库中知识获取的一种有效方法:根据产生式规则,按逆向推理方式链接相关知识点,在知识库中形成了一幅完整的知识地图。从某领域问题的总目标结点,逐层向下扩展树的分枝和下层结点,从中提取规则知识,从而有效地获取解决该目标问题的全部规则知识。产生式规则的知识表示的特点体现在:一方面,它是基于逻辑推理的演绎推理,这样保证了推理结果的正确性;另一方面,大量产生式规则所连成的知识树,可以是多棵树。从树的宽度看,反映了实际问题的范围,从树的深度看,反映了问题的难度。
4.2 知识表示的评价
前文勾勒出知识库与数据库在知识发现过程中彼此内在结构的对应,以及适应该结构下知识点之间的逻辑关系,以及前面章节中所介绍的知识表示方法,这些都是知识发现的前提和基础。不同的知识需求所应对的知识表示格式也是不同的。对知识库中的知识需求可以从两方面着手:面向人类的信息需求与面向机器的信息需求。更确切的说较粗粒度的自然语言表示的知识可以满足知识问答、知识教学等方面的需要而较细粒度的基于一阶逻辑完全形式化的内容满足机器推理的需要。充分考虑和融入知识表示的多粒度性,并通过粒度概念分析(Granularity Concept Analysis,GCA)评价知识表示的形式是否清楚地反映内容实质,同时考虑到知识表示最大作用是有效地支持知识的推理活动,因此知识表示产生的概念效率与计算效用将是重要评价指标。
(1)粒度概念分析。一个可共享的知识库应该满足不同背景的用户对知识的需求,不同的需求对应粗细粒度不同的知识表示(见图3)。为此必然需要有一种评价方法来衡量针对知识库中知识的粗细粒度的表示,本节通过粒度概念分析(GCA)对粗细不同粒度知识的挖掘,揭示和呈现领域相关知识的结构和内在联系。
图3 知识库中知识的多粒度表示体系
如果说关联概念分析(RCA)是在形式概念分析的基础上着重于在概念横向关联方面的延伸,那么粒度概念分析(GCA)则强调在概念纵向细节方面的拓展。粒度概念分析法的基本指导思想是根据知识所包含的概念粒度由细到粗对知识从纵向进行迭代。粒度概念分析分两个过程,第一阶段是构建粗粒度形式背景,由于形式背景中的要素粒度线条粗阔,在一定程度上减轻了对领域专家的依赖,就像区分有毒蘑菇和无毒蘑菇(细粒度)往往需要一定的专业知识,而区分蘑菇和竹笋(粗粒度)则相对容易得多。由粗粒度形式背景诱导出的知识粗粒度表示除了降低了知识表示的复杂性,减少了计算量,增强了面向人类信息的可读性,还能够很好地把握全局范围内的知识间的语义关系,在领域全局视角下提供粗粒度概念的相关信息,并有助于用户选择相应的高频关键词类做进一步深入分析。粒度概念分析法的第二阶段就是针对某类高频关键词(热点知识)构建细粒度形式背景,即在原粗粒度的知识表示基础上,进一步细化部分知识点的描述粒度,这部分知识点往往是关注度比较高或内涵比较丰富,通过细粒度的表示更清晰地勾勒出该知识点的内涵。由细粒度形式背景诱导的知识细粒度表示在运算量和复杂程度都将增加,使得机器推理的效率降低,但能够通过概念间的偏序关系呈现更多的数据细节,从而提高机器推理的准确度,为用户提供了更加准确的文献信息。
(2)概念效用。知识的数量和质量决定了知识库所能提供知识服务的广度和深度,以及解决问题的能力。在知识库内的逻辑结构中考虑知识表示方式的概念效用主要体现在两个方面:一方面,概念的一致性应有利于知识库以自然的方式吸收新知识,新知识的加入与老知识的更新不会引起知识库结构发生变化。这样更有利于知识库大量吸收并储备各方面的知识;第二方面,概念的有效性应便于机器的知识推理,高效地挖掘出人们所需要的显性化知识,而这些知识赋予的概念内涵又要易于被人们理解。进一步说,面向机器推理的知识包含的概念粒度更细腻,有利于从更深度挖掘数据,组织成精准度更高的知识;而面向人类的知识包含的概念粒度更粗广,使得知识的表示更丰富,更具内涵。但值得注意的是,不论是面向机器的信息需求还是面向人类的信息需求,知识表示粒度都不能过小或过大,否则将形成不确定性知识,而应遵循适度的原则。
(3)计算效用。知识表示的不同粒度是针对知识服务的需求所确定的,针对知识库中知识表示的粒度粗细没有好坏、优劣之分,只有是否适应知识需求之别。但从响应各类知识服务的能力、对知识库中的知识推理等角度,就必须提出针对知识表示的计算效用,既能满足知识表示表达完整的概念内涵,又保证适宜的颗粒度组合能支持面向知识服务的各种推理需要,更关键的是知识之间及知识所包含的概念粒度之间有严格的逻辑关联,从而巩固知识库内在逻辑结构,为知识推理搭建严密的逻辑基础,提高推理结论的正确性与速度,提升计算效用。
知识表示效用是个两难的复杂问题。面向机器的信息需求期望表示知识的概念粒度越细越好,更便于知识推理的准确性,但在提高概念效用的同时,降低了计算效用,即机器推理的效果提升了,效率降低了。面向人类的信息需求则知识的粒度要稍微大点,能呈现出丰富的语义,便于我们能检索获得准确的且能理解的知识,从计算效用的角度能保证推理的效率,却不能保证推理的精准度,粒度的增大,知识间的逻辑关系将更加复杂,降低了知识表示的概念效用。概念效用与计算效用这两个方面是相互制约的,往往提高一个方面的效用将牺牲另一个方面的效用。
两难问题的瓶颈在于对知识源的技术性的基础处理——数据清洗。
4.3 数据清洗
知识库从数据的输入到知识的输出,最终目的是为知识服务提供满足应用所要求的合适的查询结果,数据是信息的基础,数据质量决定了信息的价值,信息价值又是知识价值的保障,而数据质量问题是由非清洁数据引起的。为此,完整的知识库逻辑结构势必对知识库内如何进行数据清洗考虑在其中。
(1)知识库中数据清洗的范畴与方法。数据清洗(Data Cleaning)的范畴在微观层面分为单数据源、多数据源,分别体现在模式层和实例层上。单数据源的问题集中体现在拼写错误的数据、相似重复数据及非关联数据(孤立数据)等;多数据源的问题则反映在时间的不一致、粒度不一致(见图4)。
针对知识库中的非清洁数据(Dirty Data),从模式层的非清洁数据与实例层的非清洁数据分别提出了一些针对性的方法(见表2)。模式层针对知识库设计过程的数据结构的缺陷,如缺乏完整性约束的设计;实例层关注数据内容的问题,如数据缺失、数据重复等。
以表3所示的一个非清洁数据的片段为例,不难判断:不完整的数据有:(ID:3、字段:归属城市)“NJ”;错误数据有:(ID:6、字段:超市名称)“Mal-Mart”;重复数据:(ID:1、3、6)表示同一个实体。
进一步分析可以发现 (ID:4、字段:超市名称)“Walmart”虽然不存在拼写错误(该非清洁数据不是由单数据源导致的实例层错误),但表示方式与其他的“Wal-Mart”并不一致,还有(字段:商品编码)与(字段:联系电话)的表示也不一致,这些不一致究其原因是多数据源导致的数据结构问题,但是这些非清洁数据阅读者容易理解,可机器很难“理解”,这个问题回到了上一节4.2节中知识粒度表示的概念效用与计算效用的博弈。
图4 数据清洗的范畴
表2 非清洁数据的分类及清洗方法
表3 非清洁数据的片段示例
这引发了另一个深层问题,对于非清洁数据,是否需要彻底清洗?如果由机器进行更细腻的数据清洗,必然将出现数据蕴含的一部分知识丢失或失真,并且带来机器计算上的负担。因此,数据清洗是必要的,但清洗过后,依然存在非清洁数据也是必然的。非清洁数据的辨识与清洗很难保证知识库完全不具有非清洁数据。为此,需要容忍非清洁数据的存在,更要研究如何从包含非清洁数据的知识库中得到满足应用所要求清洁度的查询结果。
(2)非清洁数据的清洁度机制。清洁度反应的是数据质量的情况,清洁度可以用一种是概率的方法描述,即用非清洁数据片段中的元组的准确概率表述。如表3中,可以判断ID为1、3和6表示同一个实体,因此,可以合并这3条数据片段,根据这个数据片段只能判断 “超市名称”取值更可能为 “Wal-Mart”,但机器无法完全排除“Mal-Mart”的可能性,为了描述每个可能取值的质量,赋予每个值一个概率值,表示该值的清洁度。如“Wal-Mart”在同一个实体 (ID为1、3和6)3条数据片段中出现了2次,则清洁度为2/3,如表4所示。
表4 清洁度表示示例
在实际应用中,数据片段的清洁度可以通过人工或者自动的方法获取,考虑到随着操作的进行数据清洁度是递减的,因此根据查询的需求,在操作执行的过程中某些环节需要过滤掉清洁度不可能满足查询要求的中间结果,这样可以减小中间结果的数据量,从而加速查询的处理。例如,对于如果查询要求结果中每条数据片段的清洁度在0.6以上,则在查询处理的过程中可以过滤掉清洁度小于0.6的中间结果,因为由这些中间结果生成最终结果的清洁度一定小于0.6。
(3)基于阈值的相似连接算法。相似连接是在两个元组集合中选择出满足相似性下界(阈值)的元组对。上文中概述了非清洁数据的分类及清洗方法,本节基于编辑距离的相似连接,对于给定的两个字符串r和s,r和s的编辑距离ed(r,s)是指从r变为s所需要的最少的编辑操作(包括:删除、插入和替换)次数。如表 4中,ed(Wal-Mart,Mal-Mart)=1,ed(025-83786382,83786382)=4。 给出相似连接算法的定义。
定义1:相似连接。给定两个属性值集合R和S及编辑距离阈值k,R和S的相似连接是指选出所有的属性值组合(r,s),其中 r∈R,s∈S,而且 r和 s 满足至少存在一组可能取值 r和 s。 它们的编辑距离 ed(r,s)≤k。
以下表5为例,给出两个集合R和S。若给定编辑距离阈值 k 为 3,则对应相似连接结果仅为(r,s)与(r,s),因为 ed(Wal-Mart,Mal-Mart)=1≤3,ed(Jerry Strauss,Jerry Strauss)=0≤3。 其余相似连接中(r,s)、(r,s)显然其编辑距离均超过阈值3,表6给出了对应的连接结果。
表5 集合R和S
表6 集合R和S的相似连接结果
其中,第二条元组(ID=2),ed (Jerry Smith,Jerry Strauss)>3、ed(Jerry Smith,Jeff Strauss)>3,故第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2。进一步给出基于阈值的相似连接算法的定义
定义2:基于阈值的相似连接。给定两个属性值集合R和S及编辑距离阈值k和清洁度阈值α,R和S的阈值相似连接是指选出所有的属性值组合 (r,s),其中r∈R,s∈S,而且r和s连接结果的清洁度不低于α。
上例中,如果清洁度阈值α设为0.3,表5中两个集合 R 和 S 的阈值的相似连接结果不再是(r,s)与(r,s),因为第二条元组对应清洁度为1/5*2/5+1/5*3/5=0.2,该结果不满足清洁度阈值要求。基于阈值的相似连接算法的特点是当编辑距离阈值k较大且清洁度阈值较小时,连接结果大小将接近于n(n是连接集合的大小),反之连接结果集比较大。
5 结语
知识库逻辑结构直接决定着知识库进行知识组织的模式,支撑着从传统文献服务到如今知识服务的转变与升级。当前,知识服务还在面临着大数据时代下日益膨胀的信息与纷繁错乱的各类数据,对知识库的依赖更加紧密,迫切需要知识库筛选出精确的数据,进行严密且快速的知识推理,提供高效且准确的知识。本文梳理了知识服务、知识组织与知识库的关系,并以知识服务为目标,构建了知识库的内在逻辑结构模型,顺应了知识经济的发展需求,但在实际构建中仍有许多问题有待进一步研究解决,如知识库与数据库双库协同影响着知识的表示粒度、数据清洗影响着知识间的关联等一系列问题都牵连着知识点之间的逻辑关联,从而带动着知识库内在逻辑结构模型。这些都有待在具体实施过程中进一步探索。
[1]钟秀琴,刘忠,丁盘苹.基于混合推理的知识库的构建及其应用研究[J].计算机学报,2012,35(4):761-766.
[2]杨炳儒,宋威,徐章艳.基于知识发现创新技术的专家系统新构造[J].中国科学:信息科学,2007,37(6):738-747.
[3]王知津,王璇,马靖.论知识组织的十大原则[J].国家图书馆学刊,2012,(4):3-11.
[4]赖茂生,屈鹏,谢静.知识组织最新研究与实践进展[J].图书情报工作,2009,(2):19-23.
[5]贺德方.国内外知识组织体系的研究进展及应对策略[J].情报学报,2010,(6):963-972.
[6]王军,张丽.网络知识组织系统的研究现状和发展趋势[J].中国图书馆学报,2008,(1):65-69.
[7]毕强,韩毅,刘昆.知识服务——现状、进展及挑战[J].中国图书馆学报,2007,(6):41-50.
[8]董慧,徐雷.基于本体知识表示的历史领域专家系统模型[J].现代图书情报技术,2010,(7):72-78.
[9]王曰芬,熊铭辉,吴鹏.面向个性化服务的知识研究[J].情报理论与实践,2008,(1):7-11.
[10]李广建,李亚子.基于分布式知识库的开放服务链接系统设计与实现[J].情报学报,2008,(2):244-249.
[11]宗南苏,郑业鲁,钱平.基于SWRL的鳜鱼疾病诊断知识表示与语义推理实现[J].情报学报,2010,(3):414-421.
[12]黄海松,谢庆生,李少波.基于知识的中药制造企业MES[J].系统工程理论与实践,2012,(1):164-172.
[13]孙勇,李妮,龚光红.基于知识库的动态蚁群算法[J].北京工业大学学报,2012,(3):374-379.
[14]Gail Hodge,Linda Hill,et al.Next generation knowledge organization systems:Integration challenges and strategies[C].Proceedings of the 5th ACM/IEEE-CS joint conference on Digital libraries,ACM New York,NY,USA 2005.
[15]Ed Summers,Antoine Isaac,Clay Redding and Dan Krech.LCSH,SKOS and linked data[C].Proceedings of the 2008 International Conference on Dublin Core and Metadata Applications(DCMI'08).Dublin Core Metada ta Initiative,2008:25-33.
[16]Simon Jupp,Sean Bechhofer,Robert Stevens.A flexible API and editor for SKOS[C].6th Annual European Semantic Web Conference(ESWC2009),2009:506-520.
[17]张晓林,张冬荣,李麟,等.机构知识库内容保存于传播权利管理[J].中国图书馆学报,2012,(4):46-54.
[18]张旺强、祝忠明,卢利农.机构知识库集成OpenKOS主题标引与检索聚类服务的实现及应用[J].现代图书情报技术,2012(3):1-7.
[19]王宏志,李建中,高宏.一种非清洁数据库的数据模型[J].软件学报,2012,23(3):539-548.
[20]张岩,杨龙,王宏志.劣质数据库上阈值相似连接结果大小估计[J].计算机学报,2012,35(10):2159-2168.