基于知识论和数据挖掘的数字资源整合研究
2014-09-17贾凤旭
关键词:知识论;数据挖掘;资源整合;知识服务
摘要:文章从知识论的视角出发,将数据挖掘技术与方法贯穿于图书馆自建数字资源整合工作中,得出知识结构图,把图书馆数字资源以知识层次结构形式清晰地予以揭示。
中图分类号:G253文献标识码:A文章编号:1003-1588(2014)05-0086-03
收稿日期:2014-02-22
作者简介:贾凤旭(1971-),鞍山师范学院图书馆馆员。1知识服务推动数字资源整合
随着数字资源的快速普及,极大地拓展了人们获取信息知识的渠道,对数字资源获取和利用效率的新需求也随之而来,其主要表现在对数字资源检索的系统性需求和具体化为对知识的需求,读者对数字资源的需求已不再限于信息表面,而是具体深入到信息内部的知识层面,即对知识服务的需求。这些新需求让图书馆开始加强信息资源服务内容的知识性,注重信息服务中知识因素的培育和发展,把各类数字资源按其知识结构和相互之间的逻辑关系,基于一定的科学方法进行整合,形成一个井然有序、结构明晰的数字资源新结构体系,帮助读者在浩如烟海的数字资源中找到需要的信息知识,在海量的信息中捕获蕴涵的知识内容及其逻辑关系,从而方便了对知识的理解、应用并转化为创造新知识。
如何对整体无序的数字资源进行合理的整合,这需要结合读者的需求对数字资源进行知识挖掘,将分布在异构系统中的资源进行科学组织,形成以知识结构为脉络、主题知识为节点的知识结构图,让读者按其所需,透过知识结构图的导引,轻而易举地获取所需要的有价值的信息知识。而如何提供有效知识,满足读者对知识的需求,与资源整合的程度密不可分,作为资源整合高级阶段的知识整合,是图书馆做好知识服务的前提保障。知识服务的需求促进了知识组织方法与技术的发展,推动了图书馆基于知识的信息资源整合的研究与应用。
2知识论与数据挖掘
2.1基于知识论和数据挖掘的知识服务
知识服务是从资源内部所具有的各种显性和隐性信息,提炼出来读者所需知识的一种服务,它把人们获取知识的方式提升到一个全新的阶段。知识是资源整合的最主要结果,是资源整合的关键性问题。信息科学中以知识论为基础建立的“信息——知识——智能的转换与统一理论”[1-3]同样可以借鉴到图书馆数字资源整合实践中,以知识为出发点,探究数字资源本质和内在规律,最终利用知识来解决各种实际问题。各种信息资源均与知识密切相关,信息资源只有提炼成知识,才能实现其价值——智能的转化,这也是资源整合研究中的核心问题。知识是各种经验、数据和信息的概念化抽象,是对客观世界真实、可靠、准确的揭示和描述,其本质属性具有关联性[4-7]。知识以各种表现形式蕴含在信息资源的各个部分,因此,资源整合要注重对其本身内部各种数据、信息的获取、分析和计算,对知识客观、科学地描述表示,运用以知识论为基础的数据挖掘方法对资源进行重组整合无疑是一种科学合理的和系统的智能化处理方式,针对各个资源内部知识的确定和不确定性,规范和不规范性的特点,采用人工和智能相结合的基于知识论的挖掘方法,科学规范地完成对资源的合理整合。
数据挖掘是在已有的数据基础上,通过归纳、整理、机器学习、统计分析等方法得到数据对象之间的内在特征,采用相关技术提取出所需要的信息知识。挖掘技术沿用Robot、全文检索等信息检索技术,综合了人工智能、模式识别等技术,根据目标需求在信息资源中进行有目的的资源搜寻[8-9]。并把搜寻结果用聚类、分类等方法表示出来。
2.2基于知识论的数据挖掘的实现
知识蕴含于信息之中,必须把信息中的知识提炼出来并提供给应用者,才能转化为生产力。采用基于知识论的数据挖掘方法把信息中蕴含的知识科学、系统地挖掘出来,并按一定的方法加以整理,最终传递给需求者,为其做出决策提供知识保障。基于知识论的数据挖掘流程如图1所示。
图1知识论数据挖掘的流程经过信息确定、收集整理两个步骤得到的各种信息资源,通过事先制定的数据挖掘模型,按数理统计的逻辑方法或KDD(Knowledge Discovery in Databases)计算机技术和工具来提炼信息资源中的知识元,结合知识的体系结构,通过类聚分析,按标准元数据规范要求对其进行描述,以此描述为依据,重组成为可供用户直接利用的系统性知识结构体系[8-9]。
3基于知识论的数据挖掘在数字资源整合中的应用
以知识服务为目的的信息资源整合,就是通过利用数据挖掘方法,基于知识论的原理对信息资源进行分析重组,把各种信息资源以知识结构图的形式展示出来。知识结构图中关于知识之间的脉络关系是利用节点和连线来实现的,某一领域的知识点围绕中心概念而被整合到一个结构之中,知识单元之间既有纵向贯通,也有横向纽带。纵向贯通表示知识单元的概括范围以及知识单元之间的从属关系,即知识单元按层次排列,上层是对下层的总括,下层是上层的细化。横向纽带则是同一级别知识单元之间隶属同一知识节点的并列细分。各知识单元从纵向层次架构和横向交叉构成了知识结构图。
贾凤旭:基于知识论和数据挖掘的数字资源整合研究贾凤旭:基于知识论和数据挖掘的数字资源整合研究关于知识结构图层次结构的划分,第一,按各主题知识的总分关系进行各个知识点的层次划分,这种层次划分让其所聚合的各类资源排列从总括到细分一目了然。第二,从定义各节点知识元入手设计组织层次架构模型,根据各节点对应的知识结构关系,可以将结构中的知识资源按节点位置相对独立地构建出其本身的知识层次架构模型。第三,结构中的知识层次根据各主题知识元自身的总分关系进行划分,将出现频率较高的,并且具有指导价值的知识元定义为主题知识点,然后根据其自身的总分关系进行知识结构排列,这样能够让用户更清晰地明确高频有价值知识组织所包含知识的总体范围,以及与其他知识的关联性,增强了知识服务的实用性和管理性。
基于以上理论规划,笔者在图书馆自建数字资源的整合工作中,构建了数字资源整合知识结构图和知识元规范描述的体系,并在具体实施的过程中主要做好以下几方面工作。
3.1选题确定为核心知识领域。在组织收集资源过程中,首先梳理组织核心主题的相关知识,据此对这些主题知识点进行分类整理,通过考察、研究各专题发展动态,根据读者的利用价值,选取具有一定价值意义的知识点作为该领域知识结构的根节点。例如,图书馆自建数字资源整合流程分析中,专题性、典型性的需求知识是贯穿整个资源整合流程的主要知识点,如:世界经典名著、中华传世藏书、古籍整理、外文原版等经典收集,以及按文化专题归辑的华夏文化、雪域探幽等专题类别。并按这些经典和专题知识作为业务核心知识域进行分析、规划知识结构,通过在馆藏文献资源和网络上收集,经过筛选、加工、整理并归纳到其所属的各知识节点资源集合中。
3.2按知识的层次性制定各类型资源的层次结构图。图书馆自建数字资源整合工作,确定了主题知识点为基础工作之后,按各个主题知识点本身的知识层次结构来确定该主题知识点的纵向知识结构,让各主题知识形成一个相对独立的专题体系,如华夏文化主题知识点下,通过知识挖掘设计了宫廷文化、建筑沿革、民俗采撷、古迹遗风二级专题知识点,宫廷文化专题之下又设计出宫廷制度、宫廷服饰、宫廷建筑、宫廷饮食三级主题知识点,以此方法逐级排列,构建出该主题知识点的分层分级排列的知识结构模型,让读者对此专题知识在知识结构上有一个比较清晰的了解,并且在点击同级别主题知识节点时,可以兼顾到同级别其他分节点的资源,这样对分支知识资源也起到了一定的知识推介作用。
endprint
3.3挖掘同级别主题知识点之间的关联性。同级别的主题知识是上一级别主题知识的细化分支,这些主题知识点之间存在着一定程度的聚合性和类同性,通过知识挖掘方法,可以找出各知识点之间彼此内在的关联性,从而可以把各种信息资源触类旁通地联系在一起。如华夏文化专题知识的二级知识点专题建筑沿革、宫廷文化、民俗采撷、古迹遗风以及宫廷文化之下三级专题知识点的宫廷制度、宫廷服饰、宫廷建筑、宫廷饮食中所属的数字资源,通过数据挖掘技术寻找这些资源内部知识在诸如历史时期、人物和事件等方面聚合条件的联系,由此,设计出具有多种组合条件的检索模块,按其内部知识的上述等逻辑关系搜寻出来的资源组合,为用户的个性化知识需求提供宽范围、多角度的知识参考。
3.4主题知识点的创建和知识资源的收集、更新。密切关注各学科、专业、专题知识领域的发展动态,根据现实需求创建新的主题知识点,并对所属的知识资源进行收集、整理。同时,不断更新、补充各主题知识点的知识资源,保持知识结构体系中的知识不断完善和持续发展,构建基于知识管理与服务的图书馆自建数字资源整合系统。按照以上四个主要方面的工作,构建出如图2所示的图书馆自建数字资源整合的知识结构图。
图2图书馆自建数字资源整合知识结构图基于知识论和数据挖掘技术形成的知识结构图,把数字资源整合到对应知识点的集合内,实现了图书馆自建数字资源按知识论原理的知识结构描述和资源整合重组,为用户提供了统一的结构明晰的知识视图,让用户从整体上把握了资源知识结构,方便用户直观地查找、掌握和使用所需的知识资源。用户通过集成资源的知识结构图按图索骥,对某一主题知识的全局结构一目了然。
5结语
笔者结合了知识论原理的数据挖掘方法在数字资源整合中的应用,把图书馆的资源管理和服务提升到了一个新高度,通过知识节点的穿针引线作用,把纷纭复杂的数字资源按知识结构图整合链接,提高了数字资源的系统性、整体性和易用性,让图书馆的数字资源从原本数据集合的仓储形式转变成为以知识脉络为纽带的相互联系的整体架构形式,实现了资源按知识结构的聚合体系,促进了图书馆数字资源与用户之间的知识交流,提高了图书馆数字资源的利用效率,极大地增强了在知识经济时代背景下图书馆知识服务的能力。
参考文献:
[1]柯平.知识学研究导论[J].图书情报工作,2006(4):6-10,34.
[2]钟义信.信息科学原理[M].北京:北京邮电大学出版社,2002:15.
[3]胡运发.数据与知识工程导论[M].北京:清华大学出版社,2003:2-3.
[4]马文峰,杜小勇.数字资源整合:理论、方法与应用[M].北京:北京图书馆出版社,2007:62-63.
[5]马文峰.数字资源整合研究[J].中国图书馆学报,2002(4):64-67.
[6]胡昌平,严炜炜.基于概念图的个人数字图书馆知识服务拓展[J].情报理论与实践,2013(6):37-40.
[7]李宁,李秉严.知识挖掘技术及应用[J].情报杂志,2003(6):34-36.
[8]毛国君等.数据挖掘原理与算法[M].北京:清华大学出版社,2005:7-8.
[9]王光宏,蒋平.数据挖掘综述[J].同济大学学报,2004(2):246-252.(编校:严真)
endprint