基于形式概念分析和社会网络分析的虚拟社区成员知识本体构建研究
2015-12-15谷斌黄家良
谷斌 黄家良
〔摘 要〕虚拟社区知识资产包括文本、图片等显性知识和成员的隐性知识。基于形式概念分析(FCA)和社会网络分析(SNA),提出了一种同时兼顾二者的知识组织模型——虚拟社区成员知识本体。首先阐明虚拟社区成员知识本体内涵,分析FCA和本体间的关系,提出采用FCA构建虚拟社区成员本体具有可行性和适用性。然后指出该过程的局限性,提出可以采用SNA发现“意见领袖”突破其局限性。最后,提出了基于FCA和SNA的虚拟社区成员知识本体构建的流程。
〔关键词〕虚拟社区知识组织;本体;形式概念分析;社会网络分析
DOI:10.3969/j.issn.1008-0821.2015.07.001
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2015)07-0003-05
〔Abstract〕Virtual Community knowledge assets includes the explicit knowledge(such as test,picture etc)and the members tacit knowledge.This paper aimed to proposes a knowledge organization model which can organization both explicit knowledge and tacit knowledge.Based on FCA and SNA,this paper proposed the“Virtual Community Member Knowledge Ontology”,which gave consideration to both of them.The Author first elucidated the connotation of ontology of virtual community member knowledge,and analyzed the relationship between FCA and ontology,and believed that its of feasibility and suitability to adapt FCA to create ontology of virtual community member knowledge.However,the limitation of this process is pointed out.To break through the limitation,SNA is adapted in order to find the community opinion leaders.Based on the above principles,this paper at last put forward the process of creating the ontology of virtual community member knowledge based on FCA and SNA.
〔Key words〕virtual community knowledge organization;ontology;FCA;SNA
20世纪以来,人们能够在互联网上实现跨地域的沟通,网络虚拟世界与现实世界的生活逐渐融为一体。Howard Rheingold(1993)首次提出了“虚拟社区(Virtual Community)”这一概念[1],并定义虚拟社区是“一群主要藉由计算机网络彼此沟通的人们,他们彼此有某种程度的认识、分享某种程度的知识和信息、在很大程度上如同对待朋友般彼此关怀,从而所形成的团体”。此后,虚拟社区日渐成为人们获取知识及交流知识的重要途径,引起了学者们的研究热潮。虽然虚拟社区没有统一的定义,但可以发现其中的共同之处,包括网络空间、信息技术、人群、交流互动以及人际关系等[2]。虚拟社区的主要功能是实现社区成员间跨时空的知识交流与共享,这些用于交流与共享的知识以文本、图片等形式存在于社区中,其根本来源则是存在于社区成员大脑中的知识。这意味着虚拟社区成员的知识对于虚拟社区而言是最有价值的知识财产,因此对社区知识组织的研究不应该仅仅定位于图片、文本等显性知识,更应该包括社区成员知识的组织,从根源上为社区知识的交流共享提供基础。
本体(Ontology)的概念起源于哲学领域,但20世纪80年代以来,本体被引入信息领域并逐步应用于知识工程、人工智能、语义网等相关领域[3],其内涵越来越丰富。在知识管理领域,本体作为一种新的知识组织方式能有效解决信息检索中的查全率和查准率问题及知识的共享和复用等问题,在知识组织中具有重要的学术意义和广泛的应用价值[4]。
知识组织是知识生产创造过程中的重要环节,为知识交流和知识创新提供了基础。本文认为,本体是一种有效的虚拟社区成员知识组织方式,能够反映社区成员知识间的内在隐藏联系,更符合知识发现的客观要求,从而促进社区成员间的知识共享与交流。作者借助形式概念分析理论(FCA)构建虚拟社区成员知识本体,分析其构建过程的局限性,并采用社会网络分析理论(SNA)突破其构建过程中的局限性,提出了一个基于FCA和SNA的虚拟社区成员知识本体构建的流程。
1 形式概念分析与虚拟社区用户知识本体关系分析
FCA由Wille在1982年提出,用于概念的发现、排序和显示,所有的概念连同它们之间的泛化/例化关系构成一个概念格[5]。近年来,FCA被应用于本体构建,证明其具有可行性。结合虚拟社区及其成员知识的特点,本文认为基于FCA构建的虚拟社区成员知识本体是一种具有可行性和有效性的知识组织方式,能够有效优化社区成员的知识发现、交流、共享与利用,具有一定的研究和应用价值。endprint
11 虚拟社区用户知识本体
在计算机科学与信息科学领域,Tom Gruber(1993)把本体定义为“形式化的,对于共享概念体系的明确而又详细的说明”。此后,其他学者也提出“本体提供的是一种共享词表,是特定领域之中那些存在着的对象类型或概念及其属性和相互关系”;“本体是对特定领域之中某套概念及其相互之间关系的形式化表达”等定义。实际上,随着本体理论的发展,其内涵越来越丰富,在不同的领域具有不同的应用模式与价值,并不限于上述定义中强调的明确概念、形式化、共享等意义。例如陈向东(2006)基于本体的思想设计了一种网络环境下的知识组织工具——开放本体导航工具[6],利用的是本体中强调的知识关联思想,而没有强调其推理、共享等作用。因此,首先需要明确文章中“虚拟社区用户知识本体”的意义。本文中的“虚拟社区成员知识本体”指的是“一种能够反映社区成员知识概念及其联系的概念模型的形式化说明”,旨在构建一种能够满足社区成员知识需求,促进社区知识发现、交流、共享的知识组织方式。其内涵主要包括3方面:
111 本体中的概念来自于社区群体成员拥有的知识
不同于某个学科领域拥有相对明确的概念范围,虚拟社区本身作为一个社区成员知识交流的场所,其知识根源上来自于社区成员的知识,并没有明确的领域界限,随着社区成员及知识需求的改变而改变。
112 概念间的关系由社区群体成员知识结构决定
由于虚拟社区知识的不确定性,知识间的联系更不可能被固定地定义,但可以由社区成员的知识结构反映。例如互为上下层的概念反映了“拥有下层知识概念的成员也拥有上层知识概念”。
113 本体中概念的实例是社区个体成员
虚拟社区的知识来自于全体社区成员,以文本、图片、视频等形式展现。现实条件下,虽然成员的知识并不可能完全地表达出来,但是能够通过其知识活动反映其拥有的知识概念。虚拟社区成员知识本体的目的与应用决定,本体中概念的实例为社区个体成员。
虚拟社区存在的核心目的就是让社区成员间的知识得以共享与交流,成员间知识共享对虚拟社区的生存与发展有重要意义[7]。虚拟社区与在线信息服务等其他应用的区别在于其社会性——成员间的知识交流与社会交往。虚拟社区成员知识本体正是一种能够有效组织成员知识的知识组织方式,社区能够基于此方式实现成员知识导航、推荐、搜索等应用。
12 基于形式概念分析的虚拟社区用户知识本体构建的适用性 FCA又称为概念格理念,建立在数学基础之上,对概念、属性以及关系等用形式化的语境表述出来,然后根据语境,构造出概念格。概念格是FCA的核心数据结构,每个节点是一个概念,由外延和内涵组成。外延是概念所覆盖的实例;而内涵是概念的描述,是该概念所覆盖实例的共同特征。概念格可以通过其Hasse图生动简洁地体现概念之间的泛化和例化关系。这种概念格构建的过程是半自动化的,需要根据语境人为地确定由形式概念和形式对象所组成的形式背景,然后通过概念格的生成算法或者概念格建格工具(如Con Explorer)生成概念格。
以往的研究表明,基于FCA的虚拟社区用户本体构建具有可行性。综合形式概念分析与本体来看,本体概念的分类关系及概念格都表现为一种代数结构,也就是格结构。二者之间的这种共性从本质上揭示了二者能有紧密联系的根本原因,即具有相同的代数结构[8]。由于这种相通的代数结构,基于FCA的本体构建的关键就在于找到一种映射关系,把概念格中的元素映射到本体中的元素。国内外的学者已经对此做出了相关研究,一般有两种不同的结合方式:(1)将两者中的概念等同起来;(2)将本体中的概念和FCA中的属性进行匹配[5]。
结合本文研究对象的特点,利用FCA构建虚拟社区成员知识本体除了上述的可行性外,还具有适用性。传统的本体构建过程中,需要领域专家的参与是公认的事实,其所起作用主要是清晰地确定概念及概念间的关系。但是对于虚拟社区成员知识本体而言,本体中的概念是由社区成员的知识所决定的,不具有清晰的领域界限,概念间的关系更是难以通过“领域专家”捕捉。FCA实质是基于领域形式背景的概念聚类过程,属于无指导的学习方法,能够从本质上刻画了概念之间的上位与下位关系。将概念格引入本体构建过程中可以解决早期本体构建方法中识别概念之间的关系困难、手工组织概念到本体费时费力和易受开发者的主观影响等问题[9]。因此,利用FCA构建虚拟社区成员知识本体,能够有效解决人工构建本体时概念间关系不清晰的问题。
利用FCA构建虚拟社区成员知识本体的可行性和适用性表明,只要能够确定虚拟社区成员知识的“实例”和“属性”,构造对象的形式背景,利用概念格算法或工具构造概念格,根据概念格与本体间的映射规则,就能够构造构建虚拟社区成员知识本体。
2 基于社会网络分析和形式概念分析的虚拟社区用户知识本体构建原理 从上一节可以知道,基于FCA的虚拟社区成员知识本体构建的第一步在于确定虚拟社区成员知识的“实例”和“属性”,构造基于虚拟社区成员知识的概念格。但是,由于概念格自身的性质,该过程存在一定的局限性。结合虚拟社区知识流动的环境机制,作者认为可以从社会网络分析理论实现突破。
21 基于形式概念分析的虚拟社区用户知识本体构建的局限性 虚拟社区成员知识本体的内涵表明,相应的概念格中“外延”指拥有社区知识的社区用户,“内涵”指社区成员的群体知识概念。也就是说,虚拟社区成员作为形式背景中的形式对象,其所拥有的知识概念作为形式背景中的形式属性。其中,社区成员所拥有的知识概念可以通过其知识行为的产物反映(例如成员所发起的帖子、关注的话题等),一个社区成员可以拥有多个知识概念,不同社区成员间的知识概念可以重叠合并。
按照上述逻辑,基于FCA的虚拟社区成员知识本体构建首先把全部社区成员作为形式对象,根据虚拟社区的实际情况利用自然语言处理技术(NLP)或自定义标签技术等分析其知识行为产物,获取每个成员所代表的知识概念,即可构造基于虚拟社区成员知识的形式背景。但是在实际情况中,虚拟社区的规模具有千差万别,规模相对较少的社区拥有数十个成员,而规模大的社区则可拥有上亿个成员。由于概念格本身的特性,如此大的数据规模将对所生成的概念格的可读性和可视性产生十分不利的影响[10]。此外,虚拟社区中还会存在所谓的“虚假用户”,其知识行为并不符合真实用户的知识情况。因此,上述方法客观上只适合于成员数量较少的虚拟社区,对于成员较多的虚拟社区则产生不利影响。这种情况下,需要一种能够满足一定程度上反映社区成员知识结构,同时数据量又不能太复杂的形式背景。endprint
22 社会网络分析在基于形式概念分析的虚拟社区用户知识本体构建中的作用 近年来,在网络通信、知识管理、市场营销等领域中兴起了对“意见领袖”的研究兴趣。事实上,意见领袖并不是一个新名词,最早是由传播学者拉扎斯菲尔德在20世纪40年代提出的。学者普遍认同,意见领袖是在群体中经常为他人提供意见、观点或建议,并对他人施加个人影响的人物[12],他们在大众传播效果的形成过程中起着重要的中介或过滤的作用,由他们将信息扩散给受众,形成信息传递的两级传播。虚拟社区作为Web20时代的典型产物,也存在对社区知识的传递共享情况发挥着重要作用的意见领袖。也就是说,虚拟社区成员间的知识交流往往会通过“意见领袖节点”,意见领袖所拥有的知识概念客观上很大程度上地反映社区群体成员的知识概念及其知识概念间的联系。因此,在基于FCA构建虚拟社区成员知识本体的过程中,意见领袖可以作为一种能够保留大部分信息的简化形式对象,从而突破上述局限性。经典的意见领袖的测量(发现)研究可以:关键人物访谈法、自我报告法和社会网络法[11]。对于虚拟社区而言,前两种方法都需要浪费大量的时间精力,并且其结果的可信度更是不可保证,社会网络法是最佳的选择,实现这种方法的所依据的理论就是社会网络分析了。
SNA从20世纪30年代末正式出现,并在最近几年成为国内社会科学热门的研究方法。SNA强调从关系属性的角度解析社会行为或社会现象的方法论,并提供一套理论研究社会网络的性质特征。在虚拟社区中,成员间的知识交流活动必然会形成社会关系网络,社区成员作为网络中的节点,成员间的知识交流关系作为节点间的联系。虚拟社区中的意见领袖之所以称为意见领袖,是因为其与众多其他用户间进行知识交流并建立社会联系,影响着成员间交流的知识。已有研究也表明可以利用SNA来实现虚拟社区意见领袖的发现[11-13]。因此,SNA能够用于发现虚拟社区中的用户领袖,为虚拟社区成员知识概念格的构造提供数据基础,从而在基于FCA的虚拟社区用户知识本体构建中起到优化作用。
23 基于形式概念分析和社会网络分析的虚拟社区用户知识本体构建流程 综上所述,基于FCA和SNA的虚拟社区用户知识本体构建具有一定的可行性,有利于虚拟社区成员知识发现、交流与共享。其构建流程框架归纳如下(图1),具体操作见下文。
(1)利用SNA理论与方法,确定社区意见领袖的挑选准则(公式),基于此挑选出合理数量的意见领袖,并作为形式对象;
(2)结合社区的实际情况选择自然语言分析、自定义标签等技术,从意见领袖的知识活动中分析其知识概念,并作为形式属性;
(3)以上述形式对象和形式属性构造形式背景,利用概念格算法或工具生成基于此形式背景的概念格;
(4)根据“概念格——本体”映射规则,基于概念格生成虚拟社区成员知识本体。
3 虚拟社区用户知识本体构建
本节以第二节中的虚拟社区成员知识本体构建流程为整体框架,结合SNA理论、FCA理论的具体方法与技术,详细说明该本体构建过程。
31 基于社会网络分析的形式对象获取
SNA的数据基础的关系数据,因此需要定义虚拟社区关系网络。对于虚拟社区而言,现在最流行的关系网络是成员间的“关注网络”。即通过社区成员间的“关注”关系,可以形成一个“二值”、“有向”的社会网络,并且意见领袖能够在该网络中有显著的结构特征。
SNA理论体系一般分为:整体网络结构、内部子结构和网络位置与角色。意见领袖的发现主要应用其中的网络位置与角色的微观层面理论。从以往的研究来看,一般涉及“中心性”[12]概念和“结构洞”[13]概念。
在SNA中,节点的中心性意味着节点的权力(影响力),中心性越高的节点,其拥有的权力越大。节点中心度主要分为点度中心度、中间中心度和接近中心度。其中,点度中心度分为入度中心度和出度中心度。结构洞的概念是由 Ronald SBurt于1992年提出的,指如果在网络中的两个节点间不存在连接,而且在他们中间也不存在冗余关系,则两个节点间的空隙就是结构洞,占据结构洞的节点能够获得信息利益和控制利益。结构洞通常用网络限制度和网络有效规模来测量,一般规律是前者的值小的行动者,其后者的值就会大,存在结构洞的可能性就大。根据本文的研究背景,意见领袖在虚拟社区主要表现一方面为受到极大的关注;另一方面控制传播知识,因此本文同时选择“入度中心度”和“网络限制度”作为意见领袖的测量指标。
为平衡两个指标的权重,需要对其作Min-max标准化处理。标准化后,为每个社区成员i建立二维向量Xi=(Vi1,Vi2),其中Vi1标准化后的入读中心度,Vi2为标准化后的网络限制度。设社区成员数量为N,以N个向量Xi为输入进行K-Means聚类分析,获得C个成员类别。最后根据上述理论挑选出符合意见领袖特征的类别,其成员作为意见领袖,其中类别数量C根据实际情况选择,以控制意见领袖的数量。
32 基于虚拟社区意见领袖的形式属性获取
虚拟社区成员的知识行为产物以文本、图片、视频等形式存在,因此可以通过分析此等产物的知识概念获知用户的知识概念。
近年来,众多虚拟社区采用了自定义标签技术进行知识组织。社区成员自发各种资源的定义标签,再基于数理统计挑选出热门标签作为资源的知识概念的反映。对于非结构化的资源而言,就能利用标签获取其知识概念。对于最常用的社区文本资源而言,可以借助NLP软件进行切词、过滤停用词、形式化等处理,获取文本资源内容的核心概念。另外一种“自底向上”的社区常用技术是社区成员的“自我描述”,当网民注册成为虚拟社区成员时通常要上传个人信息,其中往往包括个人的兴趣、特长等反应个人知识的信息,相当于为自己“贴标签”。
综上所述,意见领袖的知识概念获取渠道包括两方面:成员的“自我描述”,及其知识行为产物的知识概念。前者一般以关键词的形式描述,而后者可以通过产物的标签或者利用NLP技术获取,具体方式取决于虚拟社区的实际情况。最后,结合通过一定的人工介入,经过去重、合并、过滤等操作筛选出具有代表意义的概念作为知识概念。endprint
33 概念格构建
一个形式背景K∶=(G,M,I)是由两个集合G和M以及G与M间的关系I组成。G的元素称为对象M的元素称为属性。(g,m)∈I表示对象g具有属性m[11]。以上文中的虚拟社区意见领袖为形式对象,以其知识概念为形式属性,构建单值形式背景(表1)。如第1行第1列的值为1,则表示意见领袖1具有知识概念1;第1行第2列的值为控制,则表示意见领袖1不具有知识概念2。在此形式背景基础上,采用概念格生成工具(如Concept Explorer),就能够自动生成基于FCA和SNA的虚拟社区用户知识概念格了。
34 虚拟社区用户知识本体构建
在生成概念格后,构建虚拟社区成员知识本体的关键在于确定“概念格——本体”映射规则与方法。国内外学者[8,14-18]对此作了详细的方法阐述,最常用的方法可以归纳为:(1)去除概念格最底层的节点;(2)概念格节点映射为本体中的概念,为每个概念赋予一个名称标识;(3)形式概念之间的偏序关系对应本体概念的层次关系;(4)形式概念的内涵映射为本体概念的属性、外延映射为本体的实例。具体映射规则如图2[15]。
根据以上方法与规则构建虚拟社区用户知识本体的逻辑模型后,再选择适当本体编辑工具(如JOE、KADS22、protégé等)把本体从自然语言的表示形式转化成机器可理解的逻辑表达形式,具体的开发过程在以往众多本体构建的相关文献中已有详细阐述,本文不再重复。
4 结 论
作为Web20的典型产物之一,虚拟社区的意义在于实现社区成员间跨时间、跨地域的知识交流、共享、创新等知识活动。因此,虚拟社区的知识资产不仅包括社区中的文本、图片、视频等显性知识,更包括存在于成员头脑中的隐性知识。虚拟社区的知识组织必须同时考虑这两者。
结合上述考虑,本文提出一种基于FCA和SNA的虚拟社区成员知识本体的构建流程,详细阐述了其中的关键方法,并认为虚拟社区成员知识本体是一种能够同时兼顾隐性知识和显性知识的有效知识组织模型。基于SNA获得社区意见领袖,以社区意见领袖作为形式对象,从社区成员知识活动产生的显性知识获取知识概念作为形式属性,构建形式背景,生成概念格,最终基于FCA与本体的映射关系构建本体。基于虚拟社区成员知识本体的知识组织方式,其组织对象既可以是社区成员,也可以社区的显性知识,在此基础上可以实现显性/隐性知识导航、知识检索、个性化推荐等应用。
参考文献
[1]Rheingold Howard.The Virtual Community:Homesteading on the Electronic Frontier[M].The MIT Press,2000:3-16.
[2]杨军节.虚拟社区的概念、特征与营销启示探析[J].湖南商学院学报,2011,18(3):72-75.
[3]张玉峰,周磊,王志芳,等.领域本体构建与可视化展示研究[J].情报理论与实践,2012,(10):95-98,128.
[4]常艳.基于本体的数字图书馆知识组织构建模式研究[D].长春:吉林大学,2008.
[5]周文,刘宗田,陈慧琼.FCA与本体结合研究的综述[J].计算机科学,2006,(2):8-12.
[6]陈向东,余锦凤.一种基于本体的知识组织工具[J].情报理论与实践,2006,(6):746-749.
[7]徐小龙,王方华.虚拟社区的知识共享机制研究[J].自然辩证法研究,2007,(8):83-86.
[8]刘萍,高慧琴,胡月红.基于形式概念分析的情报学领域本体构建[J].图书情报知识,2012,(3):20-26.
[9]滕广青.基于概念格的数字图书馆知识组织研究[D].长春:吉林大学,2012.
[10]B甘特尔,R威尔.形式概念分析[M].马垣,张学东,迟呈英,等译.北京:科学出版社,2007:15-17.
[11]罗晓光,溪璐路.基于社会网络分析方法的顾客口碑意见领袖研究[J].管理评论,2012,(1):75-81.
[12]李慧,王宗锋.虚拟社区中意见领袖的识别模型研究[J].电化教育研究,2013,(2):42-46.
[13]王陆.虚拟学习社区的社会网络结构研究[D].兰州:西北师范大学,2009.
[14]滕广青,毕强.基于概念格的异构资源领域本体构建研究[J].现代图书情报技术,2011,(5):7-12.
[15]田维,郭剑毅,余正涛,等.结合FCA与Jena的领域本体半自动构建方法研究[J].计算机工程与科学,2013,(3):115-120.
[16]Obitko M,Snasel V,Smid J.Ontology Design with Formal Concept Analysis.In:Proceedings of the International Workshop on Concept Lattices and Their Applications(CLA).Ostrava,Czech Republic,2004:111-119.
[17]Haav H M.A Semi-automatic Method to Ontology Design by Using FCA[C].In:Proceedings of the 2nd International CLA Workshop,Concept Lattices and Their Applications.Technical Uni-versity of Ostrava,2004:13-25.
[18]Cimiano P,Hotho A,Stumme G,Tane J.Conceptual knowledge processing with formal concept analysis and ontologies[M]∥Concept Lattices.Springer Berlin Heidelberg,2004:189-207.
(本文责任编辑:孙国雷)endprint