基于知识关联网络的企业知识需求识别方法
2017-03-30瞿辉吴位刚
瞿辉 吴位刚
摘要:新常态下,作为我国产业创新发展主要支撑条件的公共知识服务体系建设发挥着越来越关键的作用。其中,如何精确把握产业(特别是企业)发展过程中的知识需求问题是建设科学有效的公共知识服务体系面临着主要挑战。本文提出基于知识关联网络的企业知识需求识别方法,以期进一步提升公共知识服务的针对性和精准度,助力我国公共知识服务体系建设工作。
关键词:知识关联网络;企业知识需求;识别方法
中图分类号:F27;TPl82 文献识别码:A 文章编号:1001-828X(2017)001-0000-02
引言
知识经济时代,知识资源已成为促进社会经济发展的核心要素,对其的有效获取及利用能力已成为企业提高竞争力和创新力的关键。[1]从产业发展演化角度而言,正确把握产业空间中知识资源分布演化的内在逻辑和动力机制是提供有效产业知识服务的基本前提[2];而其中的首要问题是如何有效识别经济主体(企业乃至产业)的知识需求。因此,本文提出基于知识关联网络的相关理论和技术来识别企业的知识需求,力图从伴随产业经济客观发展实际的知识表征角度来理解相关问题,以期更好地推动我国知识服务体系的建设。
一、知识关联网络
1.知识关联。知识关联(knowledge association)指的是广泛且客观存在于不同知识单元(knowledge unit)之间的各种联系的总和。[3]由于知识并不能离开其依存的物质载体而独立存在,因此在实际研究过程中,一般使用知识载体来指代知识单元,并将知识载体之间的关系作为替代来表征知识关联。其内涵可作如下表示:定义UI={U1,U2,U3,…,Ui}为同一类型知识载体Ui的集合,定义UJ={U1,U2,U3,…,Uj}为另一类型知识载体Uj的集合,其中,UI∩UJ为空;由此,可以将知识关联KA表示为UI的子集UIsubset与UJ的子集UJsubset之间的共现关系(co-occurrence relation),其一般性表示如表1所示。从具体的关联规则上来讲,知识关联是一个异常复杂的集合,几乎难以对其进行分类。学界目前所采用的方法,主要是回避对具体关联类型的细分而集中去进行更具普遍性的关联规则挖掘之上,这方面的代表性研究可以参考Hipp[4]、Vaidya[5]以及 Qian[6]等人的研究,限于篇幅这里不再赘述。
根据事物普遍联系的客观原则,知识关联既可以用来揭示知识单元之间的一般性联系,也可以帮助人们通过这些联系来发现知识单元及知识主体之间所具有的特殊关系,并将其应用到知识管理与服务的实践中去。由于独立的知识关联本身并不能够提供多少有用的信息,实践中还需要将不同的知识关联进行叠加,已建构出更具语义知识揭示能力的知识关联网络(knowledge association network)。
2.知识关联网络。广义的知识关联网络是指由不同知识节点(若为知识单元则成为狭义知识关联网络)以及不同知识关联所共同构成的复杂语义网络,根据构成网络中知识节点是否属于同一类型,可以将知识关联网络分为异质性知识关联网络(表2)以及同质性知识关联网络(表3)两种类型。表2中,横、竖分别为不同类型的知识节点集合,而表3则是由相同类型知识节点所构成。对于同质性知识关联网络的研究目前已经非常成熟,其中最为著名的就是文献计量学中的共现研究,而针对内涵更丰富的异质性知识关联网络则相对较少,已有的研究多集中在耦合分析领域,由于其结构的特殊性,在分析方法上还有待完善。
实际上,同质性知识关联网络本质上可以看成是异质性知识关联网络在受约束条件下的特例。[7]以表3为例,可以看成是表2在约束条件,即{Ti}与{Ej}之间存在相关性。这一结果对于解决企业知识服务的针对性和前瞻性具有重要的价值和意义。
二、企业知识需求的表征
关于什么是知识需求(knowledge demand),目前学界尚未有清晰、统一的界定,但我们可以将其看成是“一个受到内、外部环境的共同影响、动态演化的随机过程”[8],对其进行定量描述是非常困难的。本文认为,可以间接以一种替代形式来表征和描述知识需求,其基本的思路如下:任何一个知识主体(包含企业)的活动必然会外化为某種可以观测、记录和获取的物质形式(语言、文字、数字或图表),这些形式可以将其归类为不同的知识单元,进而构成相应的知识关联网络;那么,对于企业知识需求的研究就可以简化为对与企业相关的知识关联网络及其结构的研究。例如,以表2为例,{Ej}表示企业的集合,{Ti}表示知识单元的集合,那么aji就表示与企业Ej与知识单元Ti的相关系数,系数越大说明其相关性也就越紧密。
这样的表示虽简单,但其仅能够提供当前某个企业可能的知识需求,因而并未解决更加重要的需求趋势预测问题。这时候就需要综合尽可能多的相似企业知识需求信息,以期找到某些规律和结构特征,具体的做法是:在表2的基础上建立表3,并对其进行聚类分析,然后根据相关知识单元所在聚类反推以确定特定企业可能的知识需求及其变化。如图1所示,Ei表示不同的企业,ti为不同企业所对应的知识单元,C为对同质性知识关联的聚类。以E1为例,t1为其直接知识需求,而{t2,…,ti}则为其潜在的知识需求;同时,从结构上看,潜在知识需求中的不同知识单元与E1之间的关联程度是不同的,以此就可以表征出语义更加丰富企业知识需求内容与结构。
三、基于语义关联网络的企业知识需求识别方法
基于语义关联网络的企业知识需求识别方法主要涉及到主题词表的编制、关联信息的搜集与提取、共现关系网络的生成、聚类与关联规则对应等步骤。具体包括:
1.主题词表的编制。用来指代细粒度的知识单元,主要在确立样本企业后,通过多方面、多渠道的搜集来编制,并经过不断的学习和优化来提高主题词表的代表性和科学性;
2.关联信息的搜集与提取。由于考虑到目前网络信息资源已经成为企业信息的主要呈现形式,因此主要通过网络爬蟲等手段获取与不同企业相关联的关键词;并通过主题词表条目的逐一对比,构建表2所示的异质性知识关联网络;
3.共现网络的生成与聚类。将得到的异质性知识关联网络转化为表3所示的同质性知识关联网络,以备后续的知识单元聚类分析(其结果如图1所示)。
4.关联信息的对应。将得到的分析结果通过表2进行关联信息的对应,最终确定不同企业的知识需求内容与结构。
四、实验与讨论
1.实验。为了验证方法的有效性,本文利用上述方法对福建省晋江市的20家企业的只是需求进行了识别。数据来源主要通过企业官方网站和百度搜索获取,并利用《福建省产业主题词表》作为参照对获取的关键词信息进行了修正、优化,最后利用聚类与对应后的分析结果(当前知识需求和未来知识需求目录)对20家企业进行了问卷调查来判断分析结果的准确性。问卷采用李克特量表(Likert scale),企业分别对与自己相关分析结果中的主题词按“非常准确”(得分1)、“准确”(得分0.5)、“不一定”(0)、“不准确”(-0.5)、“非常不准确”(-1)一一打分,最后计算得分的平均值,调查结果参见表4。
2.讨论。从表4来看,实验结果具有一定的准确性,对知识需求判定和知识需求预测的平均准确度分别达到43.3%和47.9%,但整体上的准确度还有很大的提升空间。通过研究,本文发现实验结果的准确度主要受到三个方面的影响:一是信息获取的全面性和准确性高低;二是参照主题词表的科学性和完整性;三是受访企业对知识需求的认知和表述能力。前两个因素属于方法本身所存在的系统性问题,需要通过后续的深入研究来不断减小误差,但由于受到当前相关条件的限制,这类误差只能尽量减小克服但无法消除;第三个影响因素则属于方法的外部性干扰问题,即企业是否具有能力去理解和表述自身的知识需求,这需要企业具有或者可以找到具备知识管理相关知识背景的专业人员,而在本文实验中的20家企业大多不具备这样的条件。
五、结语
新常态下,产业经济的创新与发展有赖于强化企业作为创新主体的根本性作用,其中的关键就是如何提高企业的知识创新能力。就政策而言,知识产品具有典型的公共产品属性,其投入产出的不平衡使得广大中小企业自身既没有动力也没有能力去投入生产,而只能退而求其次寻求外部公共资源的支撑。因此,各级政府作为创新驱动战略的实施者和领导者应该在知识产品生产与服务上加大投入力度,同时加强和鼓励面向企业和产业创新的知识服务制度建设。本文基于知识关联网络的企业知识需求识别方法实际上就是面向产业经济创新的公共知识服务平台建设这一大背景所提出来的,其目的就是针对企业实际探寻产业驱动的知识服务新方式。
参考文献:
[1]孙万东,赵建梅.知识链与企业核心竞争力[J].山东社会科学,2007(7):118-120.
[2]陈建军,袁凯.从经济关联走向知识关联——产业空间分布动力机制演化[J].南开学报(哲学社会科学版),2013(5):88-96.
[3]文庭孝,刘晓英,刘进军.知识关联的理论基础研究[J].图书馆,2010(4):9-11.
[4]Hipp J, Ntzer U, Nakhaeizadeh G. Algorithms for association rule mining -a general survey and comparison[J]. Acm Sigkdd Explorations Newsletter, 2000, 2(1):58-64.
[5]Vaidya J. Privacy preserving association rule mining in vertically partitioned data[J]. Journal of Computer Applications, 2006, 26(1):639--644.
[6]Qian G, Rao C R, Sun X, et al. Boosting association rule mining in large datasets via Gibbs sampling.[J]. Proceedings of the National Academy of Sciences, 2016, 113(18):201604553.
[7]康宇航.基于融合创新视角的异质性知识流动网络探测研究[J].情报学报,2016,35(9):963-970.
[8]Pier Paolo Patrucco. Collective knowledge production costs and the dynamics of technological systems[J]. Cardiovascular Diabetology, 2005, 18(3):295-310.
基金项目:福建省软科学研究项目“面向福建省县域经济创新的知识服务平台及其利用研究”(2015R0054)。