论图书馆学术数字资源的知识整合
2011-03-18吴云珊广西师范大学图书馆广西桂林541004
●吴云珊(广西师范大学 图书馆,广西 桂林 541004)
学术数字资源指与学术研究相关的数字资源。在数字资源整合实践中,产生了数据整合、信息整合和知识整合三种逐次递进的整合方式。“知识整合”是数字资源整合体系的最高层,是以知识管理方法为指导,以数据整合、信息整合为基础,以知识组织体系为支撑,以知识发掘、增值和创新为目的,组织资源中知识的一种整合方式。
鉴于学术数字资源首先表现为显性知识,图书馆一般侧重于对显性知识的管理。[1]而笔者认为,知识整合方式与知识的特质、形态密切相关。图书馆对学术数字资源的知识管理应把握学术知识“组合”和“社会化”两个阶段,知识整合应包括显性知识整合和隐性知识整合两个方面。
1 对图书馆学术数字资源进行知识整合的动因
1.1 数字资源建设的必然要求
自从数字资源成为主流信息媒体后,其有效获取一直无法摆脱“孤岛”和“超载”两大困境。“整合”作为解决出路应运而生。
学术数字资源作为一种有特殊用途的资源,其利用效能如今已不仅局限于数据的集成和信息的聚合,而需要进一步进行学术挖掘和学术创新。因此在数据整合和信息整合的基础上融入语义网的知识整合将是学术数字资源整合的方向,也是数字资源建设到一定阶段的必然要求。
1.2 新信息环境下图书馆构建核心竞争力的需要
资源数字化、获取网络化和需求知识化是新信息环境的特征。正如美国未来学家John Naisbett所说:“我们淹没在信息的海洋里,但却渴求知识。”可见新信息环境下,用户的需求已从“信息”向“知识”悄然转变,因此图书馆的价值定位也应从“信息服务”向“知识服务”转移。[2]开展知识服务既是图书馆应对新信息环境压力的需要,也是图书馆未来发展的新的生长点。[3]而知识服务需要有完善的知识整合系统的支持。
1.3 实现一站式知识搜索的基石
国外一项对学术研究者搜索行为的研究[4]发现,大多数人开始学术研究的首选是Google Scholar,而不是图书馆的检索引擎。原因是Google这类搜索引擎不仅搜得的信息全面,而且一站式检索方式简便易懂。尽管搜索到的信息冗杂,但还是比较青睐这个途径。可见研究者在使用数字资源时,比较看重检索的便捷性和检索结果的全面性。
图书馆的数字资源虽然学术性强,但却带有语法和语义的异构性,即:资源各自拥有独特的数据格式、访问方法、检索界面和语义体系,造成研究者为找到需要的资料,不得不用迥异的方法在不同数据库中进行重复检索,而且检得的结果之间没有语义关联。数字资源的异构性使基于数据、信息和语义的知识整合成为一种迫切需要。
一站式知识搜索界面不是对Google信息搜索引擎的简单模仿。其除了要实现“一站式检索”外,还要实现一种更高层次的“知识搜索”。即在吸收Google易操作性的同时,还要克服其检索结果冗杂的缺点,使检索结果更具有学术指向性。为此,要对学术数字资源进行知识整合,才能造就基于知识元的知识查找“统一界面”,实现一站式知识搜索。
2 图书馆学术数字资源知识整合的实施
从以文献单元为基础的信息组织系统发展到以知识元为基础的语义网,从对文献信息的描述转向对知识的描述,显性知识整合体现了学术数字资源知识组织管理由表及里的发展过程。
2.1 显性知识整合
2.1.1 知识标引
“科学工作者把在科研中取得的发现、发明、经验、教训等知识创新点组织成知识单元——文献,知识标引则要从文献中抽出这些知识创新点——知识元”。[5]知识标引是描述知识并生成检索标识的过程,是实现知识组织与集成、跨领域知识检索与发现的核心。知识元标引是知识标引的具体化,即从知识单元中挖掘知识元。
学术论文中可能有各类知识元——概念、数值等,以抽取论文创新点知识元为例,步骤如下:①抽取知识元名称。从标题入手定位知识元方向,然后从小标题、文摘、段首、段尾、结论等地方找寻有具体内容的特征词作为知识元名称。② 抽取知识元内容。以知识元名称作为向导信息词,从正文抽取若干由该词引出的特征句,并对句中该词的词频、位置进行加权统计,分析特征句与该词的相关度,筛选出几个句子作为该词的内容,也就是知识元内容。③ 将关键词和知识元名称进行比较。④ 将知识元名称和知识元内容导入知识元库,完成知识元标引。实践上可以通过手工和自动两种途径完成知识元标引。和手工标引不同,自动标引需要把文献转化成机读文献,借助技术手段设计一种算法来对文献进行语句分析,识别出词与非词,再进行词语加权,根据权值选出标引词,并转换生成知识元库。
2.1.2 借助本体组织知识元,借助链接确立知识元之间语义关系
本体源于哲学本体论,是适应知识整合需要的新型知识组织体系。理论上是反映特定领域知识结构的体系;方法上能准确描述知识元以及知识元之间的关联,构建知识元之间丰富的语义关系,进行知识推理,实现该领域知识的共享,有效解决数字资源之间语义异构问题。本体在语义网中的主要功能体现在“知识组织”和“知识检索”两方面。基于本体的知识组织是实现基于语义的知识检索的基础。
知识元名称相同,其语义概念在不同领域会有不同内涵。例如,“采访”在新闻领域是记者的一种新闻采集方式,而在图书情报领域指资源的采购和访求。因此要将知识元的类属关系和语义环境表示出来。将知识元名称和知识元内容导入知识元库以后,可以借助本体组织知识元,在学科内相关知识元名称和知识元内容、知识元内容和知识元内容之间建立链接,体现学科中知识元的学科环境、知识元之间的类属和层级关系,从而实现对知识元语义的限定,确定知识元之间的语义关系。
2.1.3 构建学科微观领域本体,最终形成学术语义网
语义网是人类知识整合的宏观网络,由各领域微观和中观本体组成。因此,要构建学术语义网,首先要构建各个学科领域的微观本体。学科领域本体作为学科知识的语义模型,是该学科术语、知识关联、逻辑推理等的集合,也是一种能在语义和知识层次上描述学科知识系统的概念模型。它以一种通用的方式获取该学科领域中的知识元,提供共同理解,从而实现该学科领域知识元在不同的应用程序和组织之间的共享和重复利用。如何构建学科领域本体?可以由学术部门牵头建立学科专家组,根据完整的学科体系组织该学科知识元的初始本体信息;然后由图情专业人员用精确术语表达知识元初始本体概念,建立关系模型,确定知识元初始本体之间的等同、等级和相关关系;再选择软件,用机读语言描述学科初始本体并进行形式化编码;最后以现有初始本体为基础构造出新本体并按统一要求进行本体间的语义链接。
2.2 隐性知识整合
学术数字资源是知识的物质载体。知识的形态在显性和隐性之间不断转化。对学术数字资源隐性知识的整合其实是对资源使用者使用学术数字资源后产生的隐性知识的整合。
2.2.1 隐性知识整合的途径
笔者提出以“群体化”方式整合学术数字资源使用者的隐性知识。群体化就是通过群体交流共享个体隐性知识,从而产生新的意会性知识的过程。
(1)按“学科专业”组建学术群体。基于“学科专业”这个情境,将一群学科相同、专业相同、研究领域相同的研究者聚集在一起,分享对本学科本专业本领域数字资源的领悟结果。例如:导师带研究生,通过启发或言传身教在直接交流中潜移默化地将其对学术资料的理解、想法以及在研究过程中默会的学术技能、经验传递给学生。同专业研究者还可以通过讨论小组、学术角、研讨会等形式进行定期或非定期的学术交流,分享各自的隐性知识。
(2)按“学术问题”组建研究团队。基于“学术问题”这个情境,将一群学科不同、专业不同、研究领域不同,但研究同一个学术问题的研究者聚集在一起,在共同的研究实践中,通过对具体问题的分析、解决,深度交流各自的隐性知识,激活各自潜在的隐性知识,分享研究经验,取长补短,产生创造性成果。这尤其有利于交叉学科课题的研究。
(3)按“学术习惯”组建交流社群。基于“学术习惯”这个情境,将使用相同研究工具或方法的研究者聚集在一起互通经验。研究中使用的数字资源和工具可以是数据库、搜索引擎、软件等;研究方法可以是试验、调查等。例如:通过组织某个数据库的培训讲座、座谈会、沙龙等,将对该资源感兴趣的研究者聚集起来,通过手把手地传授、实际地操作和自由的交谈等方式传播对该数据库的利用心得。
2.2.2 隐性知识整合的保障
用“群体化”方式整合学术隐性知识,可以帮助研究者避免在开始学术研究时或遇到研究困难时无所适从,直接进入研究目标的知识环境、学术环境、行为环境。
(1)多途径创造直接交流的轻松环境。优雅的交流场所、宽松的交流环境和直接的交流机会有利于提高隐性知识的传播效果。可以通过制订制度建立定期面对面交流的机制。也可以借助远程视频通讯技术和信息技术为分散在不同地区的研究者制造面对面或直接交流的机会。此外,还可以借助一些辅助工具,如:隐喻性充满想象的语言、启发性带有类推的故事、形象性可视化的工具、模型、图表、影像等克服隐性知识交流中存在的障碍,为难以表达的隐性知识增添传播途径。
(2)多方式鼓励知识分享。隐性知识对于所有者说是一种资产,只有隐性知识所有者愿意分享才能实现隐性知识的传播和整合。为此,学术交流应该以肯定、互惠、组织认可为原则,配合适当奖励以鼓励隐性知识所有者积极与他人交流、分享。
(3)通过学科馆员开展知识服务。为保证隐性知识整合的效果,图书馆的知识服务应面向学科用户,建立高效的信息交流机制,可以尝试建立“学科馆员制度”,通过交流促进用户利用知识并将自身隐性知识显性化,加快知识的传播速度。
3 图书馆学术数字资源知识整合面临的挑战
3.1 知识整合的基础难以稳固
知识整合是建立在对图书馆学术数字资源进行数据整合和信息整合基础上的高层次整合。因此数据整合和信息整合的程度直接影响到知识整合的效果。目前的整合方案并不能从真正意义上完全实现图书馆所有学术数字资源的数据整合和信息整合。① 基于OPEC系统的目录整合。虽然通过在MARC里增加856字段实现OPAC书目信息与数字资源的整合,并通过Z39.50协议实现世界范围内异构馆际间的开放互联,实现馆际数字资源目录一站式查询,但只能检索到目录层次再通过数据库检索入口查询篇章,不能直接提供篇章的全文链接。② 基于资源导航的数据整合。虽然通过数字资源的URL建立导航库,能将不同类型数字资源的检索入口整合在一起并提供字顺、分类浏览等功能,但还是要进入各个资源库进行重复性的检索和筛选的操作,并没有真正地将分布的资源整合在一起实现一站式检索。③ 基于超级链接的信息整合。虽然利用超文本链接将资源和相关信息链接成具有内在联系的有机整体,但随着链接层次的深入,容易遗漏信息、迷失方向。④ 基于跨库检索的异构无缝整合。虽然可以借助软件把不同来源和通信协议、不同类型和格式的数字资源无缝链接起来,实现不同检索界面、检索方式、检索式构造规则、检索字段的数据库的跨库统一检索,但需要广泛遵循必要的元数据标准及互操作协议。目前要对国内外所有商业数据库实现无缝链接的异构整合仍然很困难。如果数据和信息整合不到位,一站式检索平台的搜全性和直链性就得不到保障,与语义网的结合就成了空中楼阁。
3.2 知识的动态性难以应对
知识是动态发展的,表现为新知识不断产生,旧知识在应用过程中不断被注入新的内涵,与其他知识形成新的关联。这些新知识、新内涵、新关联如何被纳入到原有的知识体系,实现本体的自我进化是知识整合要面临的挑战。
3.3 隐性知识的垄断性难以克服
隐性知识是个体投入了巨大精力内化显性知识后形成的专属财富,具有个体垄断性,凝聚了个体长期的积累和对显性知识的深层次的领悟。一般隐性知识所有者不会主动转移能给自己带来收益的隐性知识。另外,相同的隐性知识对不同的个体来说,效能是不同的。某个个体的隐性知识可能对自己适用,但对于别的个体并不适用。因此隐性知识的垄断性直接影响到隐性知识整合的效果。
3.4 技术瓶颈难以回避
知识整合需要各类技术的支持,包括:知识元抽取技术、语义标引技术、跨库平台检索技术、检索技术、网络存储管理技术、数据分享技术、数据交换技术、安全访问控制技术、数据加工技术、搜索引擎技术等。[6]为配合知识整合的推进,新技术的开发和应用面临严峻的挑战,尤其是自动语义标引技术,直接影响到语义网的构建。在海量动态的学术数字资源面前,手工语义标引显然力不从心,计算机自动语义标引是必然趋势。虽然目前已经开发出许多语义标注工具,但还远远没有达到能支持多语言的自动分类、自动抽取的要求。
4 结论
对图书馆学术数字资源进行知识整合是图书馆数字资源建设到一定阶段的必然。作为学术数字资源的管理者和知识服务的实践者,图书馆是实施学术数字资源知识整合的重要机构。以用户为中心,实现学术知识的一站式检索和咨询是知识整合的目的和现实价值。知识整合不仅奠定了图书馆知识服务的基础,还为图书馆的可持续发展提供了新的增长点。知识的特性决定了显性知识整合和隐性知识整合同等重要。在实践中,知识整合目前仍面临极大的挑战。
[1]王松林.从图书馆的角度看信息组织和知识组织[J].中国图书馆学报,2006(5):61-66.
[2]方向辉.高校图书馆知识服务的运行模式探讨[J].图书馆,2009(6):82-88.
[3]朱华琴.图书馆知识资源整合与知识服务[J].信息管理,2009(6):166-167.
[4] LottaHaglund and PerOlsson.The impactonuniversity librariesof changes in information behavior among academic researchers:amultiple casestudy[J].The Journal ofAcademic Librarianship,2008,34 (1):55-57.
[5]温有奎,等.知识元挖掘[M].西安:西安电子科技大学出版社,2005:16.
[6]屈冠军.基于实现跨库检索的数字资源整合技术探讨 [J].图书馆,2009(6):86-88.