数字图书馆数字资源中事实知识元识别与标引
2020-06-23黄程
黄 程
(华中师范大学 信息管理学院,湖北 武汉 430079)
0 引言
20世纪70年代,谢拉(J.H.Shera)曾说过“图书馆已经从书籍世界走进了信息世界”,反映了当时社会信息化给图书馆资源管理内容与模式带来的巨大变化:从传统纸质文献管理走向以多元化信息媒介及自动化为特征的信息管理。20世纪90年代,随着信息技术与知识经济快速发展,图书馆从信息世界走进了知识世界,知识管理成为图书馆资源管理的新模式,数字图书馆作为一种全新的图书馆形态出现在人们的视野中,其本质上是基于网络环境下共建共享的可扩展知识网络系统。数字教育全球化趋势,使得企业、国家开始重视知识管理。非洲和印度等欠发达国家增长缓慢,而数字图书馆的知识共享、传播功能能为教育带来显著效益,因而数字图书馆的知识管理受到越来越多的关注[1]。为了进一步满足人们精细化知识获取与利用要求,数字图书馆中的知识载体被碎化为更小的单位,即知识元,以突破现有文献层面的知识服务的局限性。知识元作为目前知识管理的最小单位,可以通过排列组合形式形成各种各样的知识元,不同知识单元可以根据不同的逻辑关系形成多种知识元链接,从而实现知识价值不断提升。目前,人们对知识的控制还停留在文献层次,使得文献内包含的知识元没有得到应有的揭示,也就得不到应有的利用。面对浩如烟海的互联网信息,传统信息检索所存在的弊端日渐显露,其查准率与查全率已经无法满足人们精细化信息需求。基于文献单元的知识组织,所揭示的知识信息是粗糙的、表面的、不精确的,很难揭示知识内在联系,形成新的知识。而基于知识单元的知识组织,仍然没有细化到知识最小单位——知识元。基于主题图的知识组织,提供给用户的实际是一个完整的知识结构,相当于一个主题索引。知识元概念的出现彻底改变了人们以往停留在文献层面的信息组织的观念与做法,将传统文献拥有的信息资源进行碎化,通过建立知识元库的形式将同一主题或领域问题集成起来,使得研究者无需浏览检索全篇文献,能将更多时间和精力投入到研究中。同时,在同一知识库中所存储的知识形式的多样性,也丰富学习过程改善学习体验,提高人们的学习兴趣和学习能力。在不同知识主题、领域之间,大量的知识元链接形成知识链,相互交织的知识链进一步形成知识网络,有助于人们系统、全面、高效地了解某一领域的知识,激发人们的创新能力。相较于理论方法型知识元和数值知识元,事实型知识元研究文献更加匮乏,且中国知网已建立起理论方法型知识元库和数值型知识元库。故本文以知识元类别中的事实型知识元为研究对象,明确其特点并列举相关流程,梳理其识别与标引的相关文献。
1 相关研究
根据中国知网文献收录情况,近年来,国内知识元研究领域发文量逐年稳步上升,研究“知识元”相关问题的主要学者有温有奎、汪玲、郭德俊、徐国华、周莹、徐端颐等,研究内容主要分为知识元理论研究、知识元技术研究和知识元应用研究3个方面:一是知识元理论研究包括知识元的概念、分类、特征和模型研究;二是知识元技术研究包括知识元的抽取、标引和链接;三是知识元应用领域包括数字图书馆领域、突发事件应急管理领域、教育领域等。此外,知识元还在知识科学与知识工程、知识挖掘与知识发现和知识管理等领域得到了一定的应用。
姜永常[2]认为,应以知识元为基本单元,以知识链接为枢纽,进行数字图书馆的知识构建,通过对数字图书馆中文献信息进行知识元抽取、标引、建立知识元库和知识仓库,从而达到提供知识服务的最终目的;王泰森等[3]根据高校、科研机构的师生、科研人员及其他以学习、文献调研为目的的读者的知识资源全面系统整合要求,运用数据库与知识元链接理论与技术,提出一种知识元层次的学习型知识元数据库系统,从而实现按照学科、专业队高校图书馆数字资源与实体资源中的知识资源整合;黄晓斌等[4]认为,知识元的自动抽取在数字图书馆知识网络发展中具有重要作用,并对数字图书馆VISION模式、CNKI模式、Wiki模式3种典型的知识网络模式进行了梳理,对数字资源中知识元、和知识链接等要素进行了深入分析;刘薇等[5]将知识标引应用于数字图书馆中的知识管理,利用学科的相对独立性,对中书名、大标题、小标题、内容提取的知识元进行分类标引,并用从中文 Wikipedia 概念库中获取的语义信息进行语义链接,建立起一个数字图书馆学科标引系统。
国内其它关于知识元研究的代表性文献有:马费成在《情报学的进展与深化》中表示,知识信息的表达和组织必须从物理层次的文献单元开始;陆汝钤[6]在《从基于知识的软件工程到基于知件的软件工程》中指出,知识元是采用本体形式表示知识的基本单位,大量的知识元集合成为知识工程的素材;陈雪龙等[7]联合发表的《非常规突发事件应急管理的知识元模型》,给出了知识元属性间关系的隐性描述方法,为非常规突发事件的应急管理提供综合知识支持;温有奎撰写的《知识元挖掘》和《基于知识元的知识发现》,为知识元研究打下了坚实的基础;温有奎和温浩[8]在《一种创新点挖掘的知识单元标引系统》提出了一种创新点挖掘的知识单元标引模型,并用软件流程图描述了标引创新点的过程;原小玲[9]在《基于知识元的知识标引》中深入讨论了知识元标引的各环节,并用系统流程图表示了知识元标引的过程;付蕾[10]在《知识元标引系统的设计与实现》中描述了知识元标引系统结构以及系统实现流程,最后给出了实现方案和具体步骤。
知识元的应用前景广阔,相关研究也日渐增多和深入,但无论是在理论领域还是技术领域,知识元都存在着若干空白。例如,关于知识元类型的划分问题,仍然缺少统一划分标准,而知识元本身具有的连续性和不可分性,更加大了其类型划分难度,因而在知识元边界确定上仍然存在着主观性;在知识元应用上,目前在数字图书馆、应急管理等方面研究相对较多,但距离真正建立完备的知识元库还存在一定的距离;知识元库建立面临的主要问题是知识获取和存储的问题。如知识元提取中,还缺乏有效方法将主观知识与客观知识区分开来,导致获取的知识元中含有主观知识比率较高,降低了整体知识元库的准确性。这意味着对搜索引擎的智能化程度要求越来越高,需要提高整体效率[11]。总的来说,目前国内关于知识元的研究还处于成长阶段,涉及知识元抽取、标引等技术理论依据还不够完善[12]。此外,值得注意的是,在涉及知识元抽取和标引的研究过程中,计算机网络起着巨大的辅助与推动作用。因此,着力科学技术创新、建立更加先进的计算机平台也是推动知识元抽取与识别的有效力量。
2 事实知识元的概念及特点
2.1 事实知识元的概念
事实知识元的定义是建立知识元定义的基础上的,要想了解事实知识元的定义首先要先了解知识元的定义。随着知识管理和知识经济研究的兴起,知识元逐渐进入研究者视野。国际上,知识元概念定义出现在20世纪70年代后期,由弗拉基米尔·斯拉麦卡提出,知识控制单位将从文献深入到其中的数据、公式、事实、结论等最小的独立“知识元”(又称数据元)。国内最早提出知识单元(Knowledge Element)概念的是我国科学计量学开创者赵红州[14],他在1984 年将其界定为能够用数学公式表示的科学概念。自此,知识元研究在知识管理领域拉开序幕。关于知识元的定义,朱晓芸等[15]提出原子知识元的概念,可视为国内知识元研究的开端;孙成江等[16]认为,知识元是人的知识结构中的基本元素,由信息元、经验、智慧和问题解决4个方面共同复合而成;温有奎[17]提出了知识元链接理论,认为知识元是构造知识机构的基元,是可独立使用的最小单位;文庭孝[18]认为,知识元应该是可以自由切分、表达、存取、组织、检索和利用知识的最小的独立的知识单位;李锐、王泰森[19]认为,知识元既是一个独立的学科知识单元,也是一个事物的过程或者结果;廖开际等把组成文档的一个个相对独立的知识元素称为知识元;温有奎[20]认为,知识元定义由名称、属性、操作、导航等七要素组成。
关于事实知识元的定义,张静[21]认为,事实类知识元反映一个事实,如历史事件、地理现象、社会现象等;廖开际[22]根据文献段落的主题类型,将知识元分为事实型、主体型和任务型,并将事实型知识元定义为对名词性短语起解释和说明作用的、解决“about what”问题的知识单位;于秀慧[23]按照内容特征不同对知识元进行细致分类,并将事实(信息报道)型知识元的特征定义为描述时间的发生或反映一个事实,具有真实性、准确性或及时性等特点,时间、地点、人物等特征性很强;原小玲[9]将事实型知识元定义为有关自然、社会存在和演变的事实信息;史忠植[24]所定义的陈述性知识与部分学者对事实知识元的理解相似,认为陈述性知识是使人们了解掌握是什么的知识,包含概念和事实的知识;蒋玲认为,事实知识是指某种术语或是问题解决的基本要素,既含有术语中的知识和本质特征,又含有元素的知识。
综上所述,本文以原小玲对知识元的分类为基础,结合现有事实知识元的定义,将事实知识元进行描述为通常包含时间、地点、人物等要素的有关自然和社会存在及现象的信息。
2.2 事实知识元的特点
针对事实知识元的研究鲜见,但对知识元划分中含有事实型这一类别研究很多,本文通过分析不同学者对事实知识元的分类,给出中事实知识元的特点。含有事实型知识元这一类别的常见分类有:张静[21]根据中小学各学科课程教材中的知识特点,将课本中所涉及的知识元分为概念类、原理类、方法类、事实类和陈述类五大类;廖开际[22]根据文献段落的主题类型将知识元分为事实型、主体型和任务型;于秀慧[23]按照内容特征不同对知识元进行细致分类,并将事实(信息报道)型知识元的特征定义为描述时间的发生或反映一个事实,具有真实性、准确性或及时性等特点,时间、地点、人物等特征性很强;原小玲[9]将知识元按照表达内容的不同分为理论与方法型知识元、事实型知识元及数值型知识元;史忠植[24]将知识分为3种类型:陈述性知识、过程性知识和控制性知识。根据以上分类及研究,本文对事实知识元的特点进行总结:
(1)事实知识元具有独立性。事实在不同领域的涵义是不同的。在新闻领域,事实是指存在现实生活中的事物或发生在现实世界中的事件,如社会政治事件,自然界现象等。在认识论范畴,事实是指客观事物、事件或现象本身,也是指对以上3种的反映和描述。但无论如何,事实知识元属于知识元的一种,能够独立表达一个完整的事实。
(2)事实知识元具有拓扑性。每个事实知识元都具有完整的结构,由知识元名称、描述及关系组成。
(3)事实知识元具有链接性。由于知识元在表达上具有独立性和完整性,事实知识元之间可通过不同组合方式产生新的知识,推动知识创新,有效提升现有信息资源价值。
(4)事实知识元具有外显型。人们可以通过口头、书籍、媒体等方式进行事实知识元获取与传播。
(5)事实知识元的易存储性。一个完整的事实知识元所包含的基本要素相同,因此很容易建立起数据存储结构,实现其快速存取。
3 事实知识元识别与提取
近年来,关于知识元抽取的研究慢慢兴起,现有关于知识提取的研究有:周宁等[25]就知识元表示与抽取正确与否的问题,提出了一种以XML平台为基础的知识元表示与抽取模型,对文档进行分段读取后,从中搜寻具有知识特征的基本知识元,以结构、长度和内容为3个维度为标准,通过约束这3个维度表示知识元,并通过解析这3个维度抽取知识元;毛永吉等[26]对科技文献的句子类型进行划分,设计了SELD语言和基于SELD 语言的知识获取系统的SELKAS,用SELD语言改写科技文献后,可用SELKAS系统实现自动编译、知识抽取和整理,从而形成领域知识库;朱丽萍[27]以句子级别为基础,将文本按照背景知识、问题分析、工作描述进行划分。统计总结出引导词、线索词、等特征,建立起规则库,利用规则进行结构化抽取信息;苏牧等[28]依据自然语言的群集现象,结合知识体系信息更新的动态要求,提出了一种基于语句聚类识别的知识动态提取方法,并以机械 CAD为基本背景,利用实例进行了该方法的有效性证明。关于知识元的抽取,温有奎等[8]针对提高论文创新知识的掘与利用程度问题,以对科技论文为实体对象,提出以创新点为基础构建知识元,通过探讨文献所涉及的知识创新生产、知识增值管理、知识集成利用,梳理文本创新点的表现形式,证明了这种基于创新点的知识元挖掘方法的有效性。
3.1 事实知识元的描述规则
依据CSSCI核心期刊排名情况,选取若干情报学核心期刊,并从万方、维普、中国知网等数据库下载题录信息,对题录信息进行整合去重等处理后,整理出一份关键词表,然后从该表中获取事实描述术语,构建其术语表。根据该描述术语表对情报学某核心杂志某年的全文进行识别,得出所有关于事实描述的句子,对识别出的句子进行规则提取和构建,以流程图的形式对事实知识元描述规则构建过程进行描述(见图1)。
图1 事实知识元描述规则构建流程
描述规则构建,首先对选取的文章进行文本读取,运用构建术语表进行识别,获取其中含有事实的句子,利用分词技术将这些句子进行分词,最后用关键词表去掉不含领域主题词的句子,得到关于事实知识元的句子结构。将得到的句式结构进行人工审核和校对,筛选出关于事实知识元的句式结构,将这些结构进行分类汇总,得出事实知识元描述规则。依据上述提取流程进行事实知识元的描述规则提取,得到常见的事实知识元描述规则有:“……年,……在……,……创立/建立/创建……”、“……世纪……年代,……在……提出/证明/证实……”、“在/当……时(时间),……于……,……发明/发现/出现/产生/进行……”、“……也就是……”等。其中,关于事件类事实知识元描述规则中,经常出现的元素有事件发生的时间、地点、发生主体等信息。
3.2 事实知识元的抽取
实现知识元识别与标引的首要步骤是从中提取知识元。值得注意的是,本文研究范围是数字图书馆中的数字资源,因此,除传统文献数据库中的知识资源外,还需关注专利数据、行业标准、科技报告等特色资源库中的知识资源。明确研究所涉及的知识资源范围和性质是实现知识元准确识别与标引的基础。将实体资源的知识本文统一为文本形式的知识资源中知识元识别与标引,不涉及非文本形式实体资源的知识资源向文本转化过程研究(见图2)。
知识元提取第一步,对实体资源进行预处理,即删减资源中与主题无关的信息,减少数据量,减轻后续数据组织处理的工作量,提高整体效率。在此过程中,应考虑实体资源存在形式,若为非文本形式,如图像、音频、视频等,应转化为文本形式再进行文本信息读取及后续处理;若实体资源本身为文本形式,即可直接进行文本信息进行分段读取,搜寻文本段落中存在的知识特征。依据前文中不同知识元的描述规则,依据相应类型的知识元结构,对符合知识特征的文本段落抽取知识元。最后,将抽取的知识元按不同类型存储在数据库中,一次知识元抽取工作完成。重复以上步骤,直至实体资源中所有文本段落均完成抽取工作。
图2 知识元抽取流程
4 结语
以知识元为信息组织单位的研究日渐增多和深入,但在理论、技术领域,知识元研究还有很大的上升空间。目前,关于知识元的研究很多,但真正涉及其抽取及标引的研究鲜见。本文以事实知识元为研究对象,给出了事实知识元的定义,基于事件类知识元的特征对事实知识元描述规则和结构进行归纳总结,并进行了检索测试实验。总体而言,本文主要成果可分为以下几个方面:
(1) 提出事实知识元的概念。本文通过对知识元相关理论的梳理,对知识元概念及其特点和分类有了深入了解。在此基础上,本文综合各领域对事实的定义,结合自身的理解,认为事实知识元描述的是某个实体的演化过程、最终状态、涉及领域以及与其他实体之间的关系,并据此给出事实知识元的概念。
(2)建立事实知识元描述模型。知识元模型是知识标引的基础,参考现有关研究,指出现有研究的不足,从标识、描述及关系3个方面对事实知识元的实体结构进行描述,并将改模型应用于后续检索系统的数据库设计中。
(3)提出基于规则的知识元标引方法。知识元抽取模块是知识元标引系统的重要组成部分,本文采用流程图的形式介绍了知识元描述规则形成及知识元抽取的整体流程。
在事实知识元描述架构方面,其描述组及关系组还可进行进一步细分,如关系组可增加该事实知识元与其它类似知识元之间的联系。关于事实知识元的提取规则还需进一步改进。本文主要借鉴温有奎对知识元结构的定义,根据事实知识元通常包含事件时间、地点、主体等要素的特点,对事实知识元结构进行定义。但在实际提取过程中,由于中文语义丰富的特点,许多词语如“科技研究所”,既可以作为时间发起的主体,又可以作为事件发生的场所,这就为知识元属性特征识别带来了一定的难度。随着不断学习和探索,关于事实知识元还存在许多值得深入研究的问题。