基于本体的单元信息知识库构建研究
2018-01-02付苓
〔摘 要〕构建单元信息知识库,可以实现对单元信息的有效揭示、组织与利用,为实现精粹服务的需求提供知识保障。本文引入本体提出了单元信息知识库的构建方法,设计了知识库的总体结构,构建了单元信息本体,阐述了数据建设的过程,并以“养生领域”为例实现了知识库的构建。本文所构建的基于本体的单元信息知识库能够较好地组织、存储和利用单元信息,提供知识检索和知识发现服务,实现从海量数据中有效获取有价值信息的需求。
〔关键词〕本体;单元信息;知识库;单元信息本体
DOI:10.3969/j.issn.1008-0821.2017.12.013
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2017)12-0074-05
〔Abstract〕The construction of the unit information knowledge base is helpful for the representation,organizing and using of knowledge.It provided a high-quality services for users.[Method/Process]This paper introduced a method of building the the unit information knowledge based on ontology,designed the overall architecture of the knowledge base and the unit information ontology,put forward the process of data construction.And it took the“Yangsheng”as an example to realize the construction of the repository.[Results/Conclusion]The unit information knowledge base could better organize,storage and use related unit information knowledge,provided knowledge retrieval and knowledge discovery services to achieve effective access to valuable information from mass data.
〔Key words〕ontology;unit Information;knowledge base;unit information ontology
单元信息知识组织体系建设,为单元信息的组织和利用提供了支撑,满足了用户从海量异源异构数据中快速有效地获取有价值的信息的需求[1]。知识库(Knowledge Base)是某一(或某些)领域知识的集合,采用某种知识表示方式实现知识的存储、组织和管理。单元信息知识库作为规范描述、组织和存储领域文献中单元信息的存储库,通过对领域文献中单元信息资源深层知识内容的揭示,能够支持知识检索和知识发现。国内外相关学者不断深入研究知识库构建的理论与技术,取得了一定的成果,其中最主要构建方法是基于本体的知识库构建方法。本文深入探讨以本体为知识表示模型构建单元信息知识库,将单元信息知识进行组织,满足用户从海量数据中获取有价值信息的需求。
某些研究文献中知识元、知识单元与本文中单元信息的概念一致,所以在引用其他文献时统一用单元信息表示。
1 单元信息知识库总体结构设计
构建单元信息知识库的目标就是要捕获相关领域的单元信息,利用本体对单元信息进行组织,提供对该领域单元信息知识的共同理解。从而使用户在大数据环境中可以快速获取自己感兴趣的单元信息,而避免其他海量信息的干扰。
构建单元信息知识库首先明确知识库的构建目标、构建原则、面向的目标用户及其对知识库的需求,明确知识库中需要的知识内容和知识类型。在知识库总体需求分析的基础上,设计知识库总体结构。最后进行单元信息知识库的建设。单元信息知识库的建设内容可分为两部分:单元信息本体建设和数据建设。
1.1 构建目标
本文构建基于本体的单元信息知识库的主要目标,是为了采用语义Web技术,尤其是OWL,提供关于某一领域内单元信息的相关内容,为某一领域单元信息资源提供一致的理解,实现单元信息的揭示、组织和利用,满足用户快速获取自己感兴趣的单元信息的需求。
本文归并具有相同意义的单元信息类型[2-5],将单元信息类型分为概念型、方法型、数值型、事实型和陈述型。单元信息的类型有利于对单元信息进行分类和聚类。
1)概念型:概念型单元信息是对事物性质和变化规律的认识,大致包含定义、原理(理论)、名词解释、术语、公理、定律等类型的知识。
2)方法型:方法型單元信息是解决问题的方式,大致包含步骤、方法、经验、技巧、过程等类型的知识。
3)数值型:数值型单元信息,是以数值形式存在的单元信息,是表达客观实体数值属性方面的最小独立单元。
4)事实型:事实型单元信息,是描述实体真实情况(如发展过程、涉及领域、最终结果等)的知识,包含历史事件、(地理、社会等)现象、人物、信息、符号等类型的知识。
5)陈述型:陈述型单元信息是表述(或引用)某种观点或两者之间关系的知识,大致包含观点、结论、引用等类型的知识。
1.2 单元信息知识库结构设计
单元信息知识库的总体结构包括单元信息本体库和数据库两个部分,总体框架如图1所示。endprint
单元信息本体库存储的是单元信息的主题、来源、类型和描述内容的信息。数据库存储的图书、期刊和报纸等相关文献资源,以及相关的单元信息资源。
2 单元信息本体库构建
2.1 本体范围
单元信息是文献中隐含的有价值的表征概念、观点、原理、方法、数据、论述、结论等的原文片段信息。文献资源的外在属性特征(如题名、作者等),是数字文献资源组织中必然会使用的。作为文献的原文片段信息,单元信息也具有所在文献所承载的元数据属性,有必要挖掘出单元信息的基本来源信息。
单元信息的内在语义特征(主题词)是单元信息内部语义信息的集中概括,是表征单元信息知识内容的属性,单元信息主题概念及关系的表示影响了单元信息知识揭示、知识组织和知识服务的水平。尽可能地重用已有知识资源,建立单元信息所属领域的领域本体。领域本体提供领域内共同接受认可的概念及概念之间的语义关系,对各类单元信息进行主题概念的语义标注。
本体库还应包含单元信息的原文描述,可以直观地展示单元信息,利于单元信息的标注、检索和了解。
2.2 本体建模和形式化
单元信息知识库的本体设计,主要包括单元信息本体设计、领域本体设计、元数据本体设计。通过对单元信息本身、单元信息来源和单元信息所属领域主题三者实体关系进行语义层次上的描述和关联表示,复用已有本体和其他知识资源,构建单元信息知识库本体。
单元信息知识库的本体模型如图2所示:
本体通常使用Web本体语言(OWL)来表示。OWL使用形式语义,并使用基于RDF/XML的模式表示。万维网联盟(W3C)支持OWL,是本体发布的标准[6]。因此,本体形式化产生机器可读的文本文件;此外,语义以这样的方式表示,也可以由计算机读取。本文使用本体语言(OWL)组织单元信息。
依据上文所确定的本体范围,确定从来源类、主题类、描述类、类型类这4个主要方面构建单元信息本体。然后对每一组概念自顶向下进行分层。单元信息本体中的来源类的属性是标题,通过标题与元数据本体进行连接。主题类的属性值是概念,通过概念与领域本体进行连接。
采用模块化本体设计方法,重用已有本体或非本体知识资源构建领域本体(如图3所示),例如构建养生领域本体时重用①标题表[7-10]和养生学辞典[11]构建养生领域本体框架及②《Mesh主题词表》、《中国中医药学主题词表》、《中医药语言系统》和《中文一体化医学语言系统》用于丰富领域本体的概念和个体。养生领域本体的主要概念及关系如图4所示。
元数据本体是基于都柏林核心元数据(Dublin Core)[12],Dublin Core主要包含15个核心元素:标题、主题、描述、来源、语言、关联、覆盖范围、作者、出版者、贡献者、权利、日期、资源类型、格式和标识符。本文用到的元数据元素主要是标题、主题、出版者、作者、日期、页码,其中描述图书的元数据主要是书名、作者、出版社、出版时间、页碼、主题;描述期刊的元数据主要是:题名、作者、期刊名、出版时间、卷(期)(可选元数据)、主题、页码;描述报纸的元数据主要是:题名、作者、报纸名称、出版日期、版次(可选元数据)、主题。
3 单元信息知识库数据建设
首先遴选不同类型的文献资源,采集得到结构化的原始单元信息,然后对原始单元信息进行语义查重和映射,最终转换为OWL/RDF数据导入单元信息本体知识库系统,提供导航和检索等知识服务。
单元信息知识库数据建设流程如图5所示。
3.1 单元信息采集
单元信息采集策略是:遴选图书、期刊和报纸等不同类型的文献,然后根据单元信息提取原则人工判读单元信息。
单元信息本体知识库的文献来源主要有:来自权威出版社和核心期刊的文献。文献遴选策略有以下几点:
1)遴选图书:人工采集权威出版社的领域文献,例如《中国高被引图书年报》(2016版)养生领域(涵盖从医药卫生一般性问题到药学学科的各个出版社)的核心出版社:人民出版社、人民军医出版社、科学出版社、上海科学技术出版社等;
2)遴选期刊:人工采集核心期刊(例如中文核心期刊、CSSCI来源期刊等)发表的领域文献,例如养生领域的中文核心期刊中的R-R9类期刊(例如中华医学杂志、中华中医药杂志等)及CNKI收录其他非学术期刊(例如科学养生、养生大世界、中华养生保健、现代养生等)。
为了保证从文献中提取单元信息的准确性、实用性、客观性、新颖性、完整性和系统性[13],采用人工方式从文献中提取单元信息。单元信息主要分为概念型、方法型、数值型、事实型和陈述型。根据前面论述可知,各类型的单元信息的内容主要涉及定义、原理(理论)、步骤、方法、数值、事件事实、现象、观点、结论、引用、综述等方面。以上方面的选取原则具体如下:
1)定义:有特定的语法结构,如:×××是××××;所谓……;×××是……;也称为×××。具有新颖性,阐述简练和完整。
2)原理(理论):科学、明确地描述理论;具有创新性。
3)方法:对解决问题具有突破性改进;具有新颖性、独创性及可操作性。
4)数值:有价值、重大意义和潜在意义;具有真实性(包括时间、对象及确切数值等)。
5)事实:具有真实性、准确性和代表性。
6)观点:具有新颖性;论述准确、清晰、全面。
7)结论:简洁高度概括;具有逻辑性和普遍指导意义。
为了将不同类型文献的单元信息类和属性准确映射到单元信息本体知识库中的类和属性,根据不同来源的单元信息的规范制定了不同来源的单元信息Excel表格模板,人工将采集的不同来源的单元信息最终存储在Excel文件中。
3.2 单元信息查重和映射endprint
在数据处理过程中,首先将待录入单元信息与知识库中已有信息进行查重。对于重复单元信息(即重复单元信息本体中各个类的实例)在导入系统时进行合并处理,以保证知识库中实例的唯一性和完整性。
单元信息查重后将待录入单元信息与单元信息本体库实现映射,每一条具体的单元信息都可以与单元信息本体库中的类、属性互相联系。数据转换时,根据单元信息本体进行不同分类处理,生成对应的实例和相关属性的属性值。例如:单元信息数据库中的每一条具体的单元信息内容,都是单元信息本體中描述这个类的实例;单元信息的来源信息是单元信息本体中的来源这个类的实例,也是元数据本体中某个类的实例;单元信息的主题,既是单元信息本体中的主题这个类的实例,也是领域本体中某个概念的实例,或某个子类本身。单元信息知识库数据页面如图6所示。
4 结 语
在当今大数据环境下,构建知识库来管理单元信息资源,对单元信息知识进行有效的搜集、揭示、组织、存储和利用,这是实现从海量数据中有效获取有价值信息的需求所必须解决的一个问题。不同领域对单元信息需求侧重点不同,因此构建特定领域的单元信息知识库很有必要。本文详细阐述了单元信息知识库中的本体库和数据库构建,以“养生领域”为例实现了单元信息知识库的构建,以期为不同领域的单元信息知识库构建提供参考,希望在后续的研究中加以改进和完善。
参考文献
[1]付苓.面向大数据的单元信息知识组织体系建设框架[J].情报理论与实践,2016,(6):96-98.
[2]温有奎,焦玉英.基于知识元的知识发现[M].西安:西安电子科技大学出版社,2010.
[3]廖开际,熊会会,叶东海.基于知识元理论的应急文档结构化建模[J].计算机应用研究,2011,28(1):175-178.
[4]张静,刘延申,卫金磊.论中小学多媒体知识元库的建设[J].现代教育技术,2005,15(5):68-71.
[5]毕崇武,王忠义,宋红文.基于知识元的数字图书馆多粒度集成知识服务研究[J].图书情报工作,2017,61(4):115-122.
[6]McGuinness D L,Harmelen F V.OWL Web Ontology Language Overview,W3C Recommendation 10 February 2004[EB/OL].https://www.w3.org/TR/owl-features/,2017-05-11.
[7]刘占文.中医养生学[M].北京:中国中医药出版社,2012.
[8]马烈光.中医养生学[M].北京:中国中医药出版社,2012.
[9]杨世忠.中医养生学概论[M].北京:中医古籍出版社,2009.
[10]张民生.现代养生学[M].西安:陕西科学技术出版社,2014.
[11]卡志强.养生学辞典[M].福州:福建人民出版社,1981.
[12]Dublin Core Metadata Element Set,Version 1.1[EB/OL].http://dublincore.org/documents/dces/,2017-05-11.
[13]倪晓建.基于新信息环境下的精粹信息鉴选研究[J].深图通讯,2008,(2):6-9.
(本文责任编辑:马 卓)endprint