基于本体论的大数据数字图书馆知识体系构建研究
2016-11-21李燮慧柳州职业技术学院图书馆
李燮慧(柳州职业技术学院图书馆)
基于本体论的大数据数字图书馆知识体系构建研究
李燮慧
(柳州职业技术学院图书馆)
基于大数据背景的数字图书馆知识体系的构建已经成为数字图书馆知识组织的重要内容。从数字时代的网状知识结构体系入手,具体分析知识组织体系的演进路径及未来发展趋势,实现知识组织体系的解构与重构;以此为基础进行基于本体论的数字图书馆用户知识关联规则挖掘,最终为大数据数字图书馆知识体系的构建提供系统归纳、对比、总结,以及深化数字图书馆知识组织、知识发现、知识构建的基本理论,并系统阐述了其实现方法与关键技术路线。
本体论;大数据;数字图书馆;知识体系
从知识角度而言,人类发展的本质就是知识组织探索和追求的过程。无论是古代还是现代,人类对于知识组织的认识伴随着理论与技术的发展,不断经历着变革和演进。法国《大百科全书》因为按照字母排序一度被神权认为是亵渎神灵的异物。但知识组织演进的历程并不会因为某种阻挡而停止脚步,相反很多知识体系开始采取法国《大百科全书》的知识排序方式。众所周知,传统知识组织及其结构体系是伟大的科学家、数学家、生物学家等依据知识组织的特性描述把握知识体系结构的历程。比较有代表性的知识组织结构体系有线性结构、树形结构、盒状结构以及链状结构。但到了21世纪互联网出现后,对于知识的组织及其体系结构产生了颠覆性的变革。无论哪种传统分类方法,由于知识在计算机网络时代不再受到物理载体的制约,因此,传统分类方法已无法适应新的信息组织的组织体系。因此,从技术进步的角度深入研究当今大数据背景下数字图书馆知识体系的构建,对于未来知识的传播、保存和发展具有积极的建设意义。[1]
1 传统的知识组织及其体系结构
(1)线性结构知识组织及其体系结构,最早起源于古希腊和古罗马时期,在18世纪有启蒙作家狄德罗和数学家达朗贝在法国按照字母排序的方式,以《百科全书》的形式开始让公众了解知识组织的分类。我国的《百家姓》中按照笔画排序也是这种知识组织体系结构的体现。线性知识组织体系对当前语义环境下的网络知识体系很难融合。大数据环境下,Web语义检索没有特定的领域或词库,数字图书馆当中基于自动术语抽取的权重共识获得检索的结果,并构建自动的分配描述符。因此,Web语义环境下的检索是在文档列表中动态决定用户检索内容的适当属性。由此可见,这种检索结果不但呈现多样性;而且是线性结构知识组织所不能实现的过程和结果。
(2)树形结构的知识组织及体系。是由瑞典植物学家卡罗鲁斯·林奈(Carolus Linnaeus)在《自然系统》著作中提出的植物分类方法。该书以树形结构将植物进行系统性的分类,并在随后的发展中将这种分类方式延伸到动物学领域。这一方法使得知识体系在系统性方面实现了知识的自然树形划分特征。树形结构知识组织及体系面对大数据背景的混乱信息知识环境无所适从。当用户在数字图书馆检索一个专业术语,以期得到相关研究资料的时候,现代的数字图书馆利用本体理论组织这些关键词属性的重要性或兴趣度,通过重要程度的半序合集的属性层级构建,生成一种导航信息,该信息由领域知识驾驭。而树形结构的知识组织及体系则根本不能适应这种新的知识体系构建的模式。而大数据背景下基于本体论的知识体系构建,能将知识衍生、知识交叉、知识关联等很好地表现出来。
(3)盒状结构的知识组织及体系。即“杜威十进制分类法”,该方法简单说是将人类所有知识分为十个大的类别,然后在每个类别之下将细分的知识体系再划分为十个类别并以此类推。简单看就像是将知识装进十个盒子,然后每个盒子中又有十个较小盒子。如此人类知识得以被系统的归类为预留有足够分类空间的体系当中。但是该种分类方法在摒除了知识的自然分类属性的基础上使得知识分类带有人为的主观性认识。面对大数据背景下数字图书馆的知识组织沿着“文献到信息到知识”的路径发展,从本体论意义来看,其构建的是立体的知识系统,知识节点间会有很多融合和交叉,盒状知识组织及体系显然不能适应这种新的知识分类模式。
(4)链式结构的知识组织和体系,是印度图书馆学家阮冈纳赞(Ranganathan)在其著作《冒号分类法》中阐述的,该方法以冒号作为分段符号,通过本体、物质、动力、空间、时间进行书籍分类。不预先设定知识位置,使得没有“树根”分类模式在计算机系统中得以应用。这种方法在当今大数据信息环境下对语义描述和知识关联性方面显得非常薄弱,更加不能适应数字图书馆概念化模式的构建。
基于以上发现,无论哪种传统分类方法,由于知识在计算机网络时代不再受到物理载体的制约,因此传统分类方法不能适应新的信息知识的组织体系。也进而体现出大数据背景下数字图书馆知识体系的构建,必须以概念本质的特征呈现出来,然后以此为基础形成各种基于本体论的数字图书馆知识体系构建模式和方法。[2]
2 数字时代的网状结构知识组织体系
2.1网络时代知识组织的方式
如前文所述,任何知识体系当中,人们只能对那些具有本质性、鲜明特征、最重要和最易用的知识进行挑选式的排序和分类等工作。但数字时代传统的分类方式已经显露出它的不适应性。如,动画片《埃及王子》,故事出自于《圣经(旧约)》。按照传统知识组织体系的分类,这部动画片是应该归类在基督教的大盒子中,还是“卡通片”的小盒子当中呢?可是从知名配音演员的角度而言,这部作品是否又应该被归纳到某一明星的作品集当中呢?按照传统知识归类方式,这一作品的很多特征信息将会被湮灭在权威、固定而且强大的传统知识组织体系当中,该作品的很多知识自然属性不能被表现出来。此时,不再受到传统物理特性制约的数字时代知识组织归类方式被应用到信息时代的知识归类过程中。由此,我们发现,数字时代的知识归类是一种多向度的、多元化的,不断生长的,发展变化的,能够将知识内在联系和隐含关联关系表现出来的错综复杂的立体信息知识归类结构。传统知识分类的教条和呆板的组织格局在网状结构信息知识组织结构时代被彻底打破。这也是未来知识组织结构类型的发展趋势和方法。
2.2网络时代知识组织分类与构成
大数据时代的知识组织归类,其任何信息都能够成为一种归类方式。从用户角度而言,当用户依据自己的喜好要了解《埃及王子》时,可以通过历史中的塞万提斯一世或者是拉美西斯的链接进行了解;也可以通过地理中的链接,诸如红海或者是尼罗河进行了解;也可以通过宗教中的《圣经》或者是《十诫》进行了解,甚至可以通过影片分类中的卡通片、奥斯卡或安妮奖进行了解,用户对《埃及王子》的了解和掌握方式是通过不同向度的链接构成,而用户并不需要关心网络的这部“百科全书”究竟如何实现知识的分类。从物理介质角度来看,网络的传播方式使得用户既没有人知道,也不需要知道。
与此同时,知识的多向度使得网络时代的知识信息产生了不同知识体系之间明显的相关性。比如,当用户搜索《埃及王子》时按照宗教角度的推荐,会同时向用户提供《奇迹创造者》,这种类别的归属是通过用户搜索行为、组织行为、词条创建行为等算法产生。因此,知识组织过程中对既往用户购买行为模式的挖掘也成为一种知识组织的模式。基于此,我们发现,大数据时代的知识组织体系的分类和构成不是一成不变的,而是一直处于动态的智能变化中。大数据时代基于网络技术的知识组织分类方式已经彻底颠覆了传统知识分类方式,这种网状结构的分类可以将某一知识的特征、属性尽可能多地表现出来,并以动态演进的方式构建了新的知识组织分类。[3]
3 本体论与知识组织演变的关系
对世间万物最基本的描述,这就是源于哲学的本体一词的概念。在当前大数据背景下的信息科学领域,特定语义描述事物的信息工程就是本体理论的最佳应用。应用本体理论的发展与演变的数字图书馆知识组织体系,将逐渐智能化和自动化结合网络环境,形成了数字图书馆知识组织系统的设计与开发。
本体论和知识演变的过程是息息相关的。研究者指出本体论本身就为知识组织系统构建了以概念化为支点的信息系统本体。而哲学和科学史方面的历史渊源为信息系统本体的构建提出了量化的方法和手段。继续以前文的《埃及王子》为例,当前的网络信息知识用标签的形式,以用户的认可程度为基础形成了动态变化的《埃及王子》标签,这些标签有动画、圣经故事、迪士尼、摩西、DVD、中东、历史、灵感等多达54个标签的选择和设定。说明数字图书馆的知识体系分类也会基于用户行为而产生不断变化的分类方式。这些纷繁复杂变化的用户标签行为,在背后支撑数字图书馆利用本体论规范性的概念结构模型和概念之间视图关系的语义化描述,广泛的应用在网络时代知识组织系统的设计与开放研究中。
4 大数据背景下知识组织的解构与重构
4.1大数据背景下知识组织的解构
人类进入21世纪,当互联网和Web2.0应用模式的盛行,人们开始反思知识精英时代知识组织的模式。反权威主义将沿袭已久、理性主义的知识组织体系彻底瓦解。这种趋势在互联网中最为明显。互联网中广泛存在的站长、编辑、专家甚至是用户都是内容提供者。知识组织的逻辑线索从精英向草根跨越。大数据背景下的数字图书馆之所以运用本体论作为知识组织逻辑方式和实现手段,其目标就是将一些人认为的大数据背景下的知识“无序化”进行规范化、有序化和优化后的知识组织分类有系统地提供给用户。并且这种优化后的知识资源,为了实现更高的可控性知识服务,形成了知识组织固化与动态之间的相互升级过程。
但是知识组织的结构基于互联网或者是Web2.0的发展模式来看,其存在的土壤也是丰富多样的。以《维基百科》为例,任何人任何地点都可以对《维基百科》中没有的内容进行编辑。以百度为例,百度词条、百度百科等很多栏目都可以实现阅读者的自由编辑;甚至百度为很多站长和普通用户提供了自由创建词条或是标签的功能。至此,知识组织传统的系统被彻底打破。表面看大数据背景下的知识组织是混乱和无序的,就如同一片叶子被挂在不同的树杈上,而每一个树杈都延伸出一个知识组织系统。并且用户不用担心自己会受到知识组织分类的干扰或者是错误地选择知识类别,因为用户可以沿着任何一个可能的标签寻找到自己所需要的目标。因此,一些学者提出,信息时代知识组织的模式越是混乱就越是有效率。该种理论对传统知识组织分类提出了挑战和新的思维模式。但无序化的知识组织给当今信息世界带来了巨大的信息污染。无序、繁杂、不知所谓的知识组织和系统,必然会干扰用户选择,因此,知识组织解构之后必然是知识组织的重构。
4.2大数据背景下基于本体论的知识组织重构
大数据背景下基于本体论的数字图书馆知识组织重构,是在知识组织解构的基础上进行的。因为简单的解构必然会出现重构的因果关系,使基于本体理论的语义检索或对话管理成为语义网络环境下信息知识组织研究的热点。数字图书馆此时也从传统的物理或符号分类中走出来,开始向基于形式概念的知识工程和信息检索领域发展,并获得广泛应用。基于本体概念理论的建模思想和算法,通过学者大量的实证研究证明,其对于自动化系统建设以及提升检索效率有极为重要的作用和意义。由前文对本体理论的阐释可以看出,本体理论旨在对当前无序的知识组织系统利用技术的不断发展重新进行知识组织体系的构建。[4,5]
可以预见的是,未来数字图书馆必然会沿着本体合并、本体集成和本体对应三条路径发展。本体合并是相同主体本体的发展空间出现进一步的协调,本体集成研究虽然开始淡化,但对于数字图书馆而言是起步之初的必由之路。本体对应则是通过大领域、开放性以及分布式的环境完全取代单一的本体。至此,基于大数据背景的数字图书馆知识组织的重构路线已经明晰,且该路径完全符合大数据的海量数据背景和用户行为习惯及特点等诸多特征。
5 基于本体论的数字图书馆用户知识关联规则挖掘与构建
5.1用户知识关联规则的挖掘
随着数字图书馆知识组织建设研究在全球的不断深入,国内学者开始从满足用户个性化需求的角度,参照互联网用户行为构建知识组织分类系统。其中,用户分类、用户偏好、用户体验、用户模型等方面,都成为参照本体论的数字图书馆理论研究热点。其中,客户关系理论、信息构建理论、长尾理论等,均引入到数字图书馆用户研究领域中。而技术层面的统计计量技术和大数据挖掘技术也在不断的引入到数字图书馆知识体系构建过程中。需要指出的是,国外针对数字图书馆知识体系构建的研究过程中,非常注重从非盈利组织营销的角度强调实证研究。
而关联规则的挖掘,先后出现了多循环方式的AIS算法、Apriori算法、DHP算法等。数字图书馆关联规则挖掘中,用户群体识别和规则提取是关联规则挖掘的重点。关联规则挖掘过程是以关注用户知识活动为原则的方式,突破了传统忽略那些所谓“无足轻重”数据挖掘的方法。主要原因是,一些被认为是非主流的用户已远远超过了主流用户,因此,重新认识数字图书馆用户知识活动成为关联规则挖掘的核心。[6,7]
5.2关联规则挖掘的技术路线
用本体论的理论基础,在用户市场细分过程中,大量非主流用户的知识活动习惯已经替代了主流用户的知识活动习惯,因此如果参照传统的数据关联规则挖掘手段,以提前设定阈限的方式进行挖掘,显然在实际操作中会忽略很多用户。同时造成一旦阈限改变,就不得不进行重复操作的海量工作过程。所以,如果我们将关联规则挖掘过程区别为“稳定阶段”和“可变阶段”,首先,建立数据的预处理环节,只要保证数据源不发生变化,就实现了该技术路径的初步稳定性。其次,作为系统的核心部分,“可变阶段”的技术路径,可以产生如下的假设和应用:①如果所设定规则不具有实际意义,则通过调整支持度和置信度的阈值,在原有挖掘模型当中重新提取;②如果所得规则能够满足用户需求,其方法就是有价值的;③反复整理被忽略的规则,直到满足要求为止。
由以上数字图书馆关联规则的挖掘可以看出,数字图书馆在越来越针对用户细分、用户体验度等原则构建知识体系的过程中,其本质是从异质的市场中寻找同质。所以,关联规则挖掘不是为了将用户行为进一步分解,而是为了聚合用户行为,将那些需求相同的用户聚合。由此展示出数字图书馆关联规则挖掘的逻辑方式,如图所示。
图数字图书馆关联规则挖掘的逻辑方式
需要指出的是,该种数字图书馆知识组织关联规则的挖掘,并不是提前设定挖掘的阈值,而是在技术路径实现以后,通过专家设定相应阈值。由此将规则提取的难度降到目前技术条件下的最低。并通过这一方式,通过调整某领域专家所提出的阈值设定相关性参数,能够挖掘出更为细致的关联规则体系。由此实现了数字图书馆知识组织的静态和动态两方面分类的实现。目前的大数据挖掘主要呈现两种特征:一种是虽然挖掘过程中不需要多次扫描数据库,但一般必须遍历数据库一次。这种挖掘思想和算法制约了挖掘活动的可操作性,因为一旦阈限设置有问题,需要不断地重复这一操作过程。另一种是本文提出的先建立关联规则挖掘的技术路径,将不同的技术路径等同于关联规则的挖掘过程,该种方式忽视了技术路径的可重复使用的初衷。因此,本文所提出的数字图书馆关联规则挖掘的两个阶段“稳定阶段”和“可变阶段”不但能够实现挖掘过程的复用性,同时简化了海量数据重复操作的麻烦。[8]
6 总结
数字图书馆用户知识组织与知识服务,首先是知识体系的构建,构建方法有赖于基于本体论的知识关联规则的挖掘。基于本体论的数字图书馆将用户市场细分后,数字图书馆的用户服务水平因此获得明显的提升。这一方法突破了传统用户活动规则的梳理,将更为科学合理的口径指标提供给用户,以多粒度的细分机制,构建了中小数字图书馆的知识组织体系。而大型的数字图书馆,由于其资源更为丰富,用户的行动更加复杂,因此不同时段、不同目的下的用户行为,其体验度的规则挖掘展示出更为巨大的潜在价值。也因此,针对大规模或超大规模的数字图书馆,采用本文所提出的知识组织路径和理论能够提高该类数字图书馆的知识组织质量和服务水平。知识组织是人类发展过程中不断演变和发展的课题,这一课题历久弥新,承载着人类智慧每一个闪光点通过逻辑化的方式,进行组织、演变,最终更好地被人类利用的过程。而当今的数字图书馆知识组织的科学性和有效性,已经跨越了传统知识组织的领域和范畴,为了实现更多的用户对于知识的利用和开发,当今数字图书馆知识组织研究所承担的使命也发生了巨大变革。随着数字图书馆知识组织体系不断的构建与完善,多本体协同的知识地图最终将出现在每一个用户眼前,这也是数字图书馆知识组织体系发展的必由之路。
[1]滕广青,毕强.国外本体协调研究前沿进展及热点分析[J].中国图书馆学报,2012(1):113-121.
[2]滕广青,毕强.从应然之思到实然之举:知识的本体与本体化进程[J].情报理论与实践,2011(12):21-26
[3]滕广青.电子商务网站Folksonomy用户Tag的语义认知分析[J].情报科学,2011(12):141-144.
[4]赵凡,冉美丽.本体论在战略情报研究中的应用[J].图书馆理论与实践,2008(2):40-41.
[5]肖希明,李硕.信息集群理论和公共数字文化资源整合[J].图书馆,2015(1):1-4.
[6]张云瑞,等.建立图书档案博物一体化数字网站之探讨[J].齐鲁工业大学学报(自然科学版),2014(4):92-95.
[7]李金芮,肖希明.国外公共数字文化资源整合管理体制模式及其适用性研究[J].图书情报工作,2015(3):26-34.
[8]潘煦,阳广元.近年来国内基于关联数据的数字图书馆研究综述[J].图书馆理论与实践,2016(7):40-44.
Research on the Construction of Knowledge System of Large Data Digital Library Based on Ontology
Li Xie-hui
The construction of digital library knowledge system based on large data background has become an important part of digital library knowledge organization.Analyzing the network knowledge structure in digital era,this article forecasts the evolution path and development trend of knowledge organization system to realize its deconstruction and reconstruction.Based on above research,this article mines the knowledge connection rules data of digital library readers based on ontology,which provide reference for construction of knowledge system of large data digital library.Meanwhile,it demonstrates the methods and key technologies of large data digital library systematically.
Ontology;Big Data;Digital Library;Knowledge System
G250.76
A
1005-8214(2016)10-0047-05
本文系CALIS广西壮族自治区文献信息服务中心项目“基于大数据的数字图书馆移动视觉搜索机制及应用研究”(项目编号:CALISGX201604),CALIS广西壮族自治区文献信息服务中心项目“可穿戴计算机设备在图书馆信息服务中的应用研究”(项目编号:CALISGX201606)的研究成果。
李燮慧(1973-),女,广西柳州职业技术学院图书馆馆员。
2016-01-21[责任编辑]李海燕