众包社区用户的知识共享网络影响机理研究
2020-12-28秦可欣李海刚
秦可欣 李海刚
(上海交通大学 安泰经济与管理学院,上海 200030)
众包是企业和组织通过公开征集的方式,将原本由内部员工完成的工作,外包给社会大众群体来解决和承担。研究表明,在创新性和顾客利益方面,大众产生的想法甚至会优于内部专家,因此众包模式为企业提供了有价值的知识补充。近年来,开放式创新正在逐渐成为企业创新的主导模式,推动企业通过众包获取有创意的想法和解决方案。
虚拟社区以计算机网络技术为基础,强调社区成员之间的互动、交流与联系,进而建立友好的关系。在众包虚拟社区中,成员之间持续且高效的知识共享行为是促进社区繁荣发展的重要因素,但并非所有社区成员都愿意积极主动地贡献知识,用户知识共享的数量和质量仍是阻碍虚拟社区可持续发展的一大挑战,因此探究众包社区中用户知识共享行为的影响机理具有重要的意义。
1 文献综述
1.1 虚拟社区的知识共享
已有对虚拟社区知识共享的实证研究主要集中在探究用户知识共享和信息交换过程的影响因素。Yu et al.研究了社区文化与用户知识共享行为的关系,他们指出社区资源分配公平、互动过程公平和人际交互公平能够提升用户满意度。黄维将虚拟社区中用户参与知识共享的动机分为内部和外部动机两方面,内部动机包括自我价值感知、利他动机、社区认同和感知优势等,外部动机主要指声誉、外部奖励和社会支持等变量。另外有研究表明,个体特征也是影响用户知识共享行为的重要因素。Zhang et al.研究发现用户自我效能、知识共享经历和个人使用社区的习惯与用户知识共享行为呈正向相关关系。
1.2 众包模式
众包模式的普及逐渐吸引了学术界的关注,国内外学者从社会学、管理学和心理学等角度对众包社区相关问题开展研究,研究焦点主要体现在用户参与动机和众包绩效两个方面。关于用户参与动机,Lakhani和Panetta对全球知名创新众包网站InnoCentive上具有项目成功经验的用户进行了调研,通过特征统计分析发现样本用户大都具备相关专业的博士学位,而且获取奖金和满足感是这部分用户的主要参与动机。在众包绩效方面,Frey的研究表明,内在动机影响实质性贡献的数量,外在动机影响非实质性贡献的数量,而参与者个体的知识多样性无论是对实质性贡献还是对非实质性贡献都有正向作用。
1.3 社会网络分析
用户在网络社区中的发帖、回帖行为,是用户间进行信息交互和知识共享的重要方式,而社会网络分析关注的是人们之间的互动和联系,因此从社会网络视角研究在线社区,对理解用户个体行为和推动虚拟社区治理都很有意义。国内外学者基于弱连接强度、小世界模型和随机图理论等社会网络分析方法,对用户网络结构特征、个体节点属性以及节点间的交互影响进行了大量实证研究。Ahn et al.对在线互联网社区Cyworld进行度分布、聚类系数、平均路径长度等网络特征分析,证明人际关系网络具有小世界和幂律分布特性。Girvan et al.的研究发现网络用户在互联网社区中倾向于形成具有强联接的社团结构。
总体而言,国内外研究者对虚拟社区中用户关系网络的结构特征和网络演化开展了大量研究,但少有学者探究网络结构生成的影响机制。此外,虽然有研究表明个体特征与用户知识共享行为之间存在一定关联,综合考虑用户特征属性和网络结构特征对在线社区用户知识共享行为的交互影响几乎未被研究。
2 研究假设
2.1 网络结构
本研究分析了知识共享网络中三种关系生成机制的作用,即优先连接、三元闭包和互惠性。优先连接机制研究的是知识共享网络中用户的全局结构(如度数、吸引力)会如何影响回帖关系的建立;三元闭包机制研究的是知识共享网络中用户的局部结构(如一阶邻居和二阶邻居)如何影响回帖关系的生成;互惠性是指知识共享网络中用户互相回帖的倾向性。
优先连接机制是指网络中具有高度数的节点间更倾向于建立联系,它解释了社交网络和信息网络中关系的形成,包括科研合作网络、供应链网络和微博用户互动网络等。另外,已有实证研究表明,节点的度数和吸引力都会影响其接受连接的概率。在众包社区的知识共享网络中,节点的入度/出度意味着用户收到回帖/给他人回帖的数量,节点的吸引力是指用户在众包社区中的影响力。因此,本研究提出以下假设:
H1a:大量给他人回帖的用户更容易获得其他用户回帖。
H1b:影响力越大的用户越容易获得其他用户回帖。
三元闭包是网络最基本的局部结构和重要的关系生成机制。在许多网络中,如果节点i与节点j相连,节点j与节点k相连,那么节点i很有可能与节点k相连。Peng研究发现,三元闭包机制与引文网络中链接生成的概率有正相关关系。Romero et al.对Twitter中的用户关注关系进行研究,证明了三元闭包对在线社区中有向网络连接的形成有重要影响。在许多研究中,三元闭包也被称作传递闭包。众包社区中的知识共享网络是一种有向网络,用户间可以进行知识传递和交流。因此,本研究提出以下假设:
H2:知识共享网络具有传递性
在社会交换理论中,互惠性意味着任何获得帮助的人都应该回报他人。社交群体中的成员更愿意帮助那些使他们受益的人。研究表明,具有高互动性感知的在线社区用户更愿意主动进行知识共享。在众包社区中,互相回帖有助于促进用户间的知识共享和合作、提高用户的持续参与意愿。因此,本研究提出以下假设:
H3:用户倾向于互相回帖
2.2 节点属性
国内外学者对用户节点属性和网络连接形成的关系做了广泛的研究。宋晓龙研究表明,同质性对在线健康社区中朋友关系的形成具有显著影响。Song et al.分析了虚拟社区中用户声望对点赞关系形成的促进作用。左贤莉验证了用户的情感倾向与回帖关系之间有显著相关性。
用户的参与水平主要体现在参与程度和价值贡献两个维度,高参与度用户在社区中经常提供信息、分享信息、积极参与社区互动。已有研究表明,虚拟社区中用户的参与水平对知识共享有显著正向影响。在众包社区中,用户的等级和活跃度是其参与水平的体现。因此,本研究提出以下假设:
H4a:等级越高的用户会获得更多其他用户回帖。
H4b:活跃度越高的用户倾向于向他人回帖。
同质性是指网络中在某些方面有相似性的节点间更容易建立联系,国内外学者对此进行了广泛的实证研究,如种族同质性、教育同质性、社会经济地位同质性等。Thelwall通过研究在线社交网站MySpace中同质性对用户参与行为的影响,发现在价值观、年龄、婚姻状态和加入MySpace的原因等方面,同质性对用户间互相交流有显著影响,而性别同质性并未得到验证。考虑到现实世界与虚拟社区的不同,同质性对众包社区中知识共享网络的链接形成也会有不同的影响。因此,本研究提出以下假设:
H5:相同地域的用户更易形成回帖关系。
用户在社区中的经历和经验会影响未来的参与行为。具有高声望的用户更有可能获得更多的社会资源和他人的信任。在社会学理论中,这也被称作“马太效应”,即先前获得过认可的人比后来者更易获得信誉。与声望类似,高人气意味着来自他人的喜爱和对能力的认可。因此,本研究提出以下假设:
H6:人气越高的用户倾向于获得更多回帖。
3 研究数据与方法
3.1 数据描述
本研究选取Kaggle.com作为研究对象。Kaggle成立于2010年,是全球最大的数据挖掘和机器学习竞赛平台,举办了300多场数据竞赛,各大公司和非营利性机构都在Kaggle上发起过竞赛,是典型的众包平台。每一个数据竞赛下都设有“Discussion”板块,参赛者可以在此通过发帖与回帖的方式进行交流。竞赛设有开始日期和截止日期,开始日期是报名和组队的最后期限,截止日期是最后可提交模型及数据结果的日子。根据竞赛中的两个时间节点,本文将发帖-回帖行为按照时间线分为三个阶段:1)准备阶段,从竞赛发布到组队报名截止的阶段;2)提交阶段,在此期间,参赛者可以重复提交数据和模型;3)讨论阶段,竞赛结束后,用户通常会互相讨论竞赛结果和参赛心得。由于不同阶段用户关注和讨论的话题有所不同,参与发帖-回帖行为的动机可能存在差异,因此本文将把众包竞赛划分为不同阶段来探究知识共享网络的影响机理。
本研究的数据来源是Kaggle平台中已结束的竞 赛 “Santander Customer Transaction Prediction”,收集了“Discussion”板块中所有发帖和回帖信息以及相关用户的属性数据。在剔除了属性不完整的用户数据后,最终得到908名用户和3753条发帖-回帖关系,图1是网络整体的拓扑结构。根据时间节点对发帖-回帖关系进行划分,分别构建了准备阶段、提交阶段和讨论阶段的知识共享网络。三个阶段的网络均为有向网络,如果用户i向用户j回帖,那么网络中就会建立一条从i指向j的有向连接。
图1 知识共享网络
根据研究假设,本文获取的用户节点属性包括用户等级、发帖/回帖总数、地域和被关注数。用户等级为分类变量,每一个等级为一类,等级是用户在平台中参与程度和贡献价值的综合体现。发帖/回帖总数=发帖数+回帖数,是连续变量,反映了用户在“Discussion”板块的活跃度和积极性。地域为分类变量,每一个国家为一类。被关注数为连续变量,是用户被其他用户关注的人数,表现了用户在平台中的受欢迎程度,用以衡量人气。由于发帖/回帖总数和被关注数的方差较大,不便于直接代入模型进行验证,根据已有研究方法,本研究将这两个连续变量处理为0~1分类变量,发帖/回帖总数和被关注数高的前25%取值为1,其余取值为0。表1展示了每个假设对应的变量及网络结构。
表1 研究假设及网络结构
3.2 指数随机图模型
本研究采用指数随机图模型(Exponential Random Graph Model,ERGM)来探究不同网络结构和节点属性对网络形成的影响。与大多数广义线性模型的独立性假设不同,ERGM假设网络连接的形成相互依赖,并通过测量协变量来捕获关系数据的相互依赖性。因此,ERGM经常用于分析具有多属性节点和相互关联连接的网络数据。
ERGM是网络分析中一种常见的模型,主要用于研究各种网络变量对网络边生成的影响效应。指数随机图模型的一般形式为
其中,Y是模型生成的网络,是网络中二元关系(有边或无边)的随机集合;y是真实的观测网络;κ是归一化因子,用以确保所有可能网络样本出现的概率和为1;A是观测网络中所有可能的网络结构的集合;ηA是网络结构A对应的网络参数;g A(y)是对应的网络统计值。ERGM基于观测网络中的网络统计量模拟生成随机网络,并将观测网络和随机网络进行比较,两者结构越相似,ERGM参数估计越准确。
4 数据分析
4.1 网络结构分析
社会网络结构是行动者之间存在或潜在的一种关系模式,通过对社会网络的基本属性进行分析,可以把握网络结构的整体特征。本研究通过对比分析准备阶段、提交阶段和讨论阶段的发帖-回帖的网络结构,从宏观角度探究知识共享网络在不同时期的结构特征和演化趋势。表2展示了三个阶段知识共享网络的网络结构。
网络密度是网络成员间彼此联系的紧密程度,准备阶段、提交阶段和讨论阶段的网络密度分别为0.0036、0.0071和0.0063,说明网络中节点关系较为松散。提交阶段处于竞赛的核心时期,参赛者更倾向于与其他成员交流,因此网络密度最大。此外,知识共享网络的互惠指数随着时间呈递增趋势,三个阶段的互惠指数分别为0.0126、0.022和0.023,表明随着竞赛的进行,参赛者间交流的互惠倾向越来越强。
表2 三个阶段知识共享网络的网络结构
小世界效应有利于促进网络间的知识流动以及信息传递的准确性与有效性,其特征是较大的聚类系数和较小的平均路径长度。在知识共享网络中,三个阶段的聚类系数分别为0.062、0.074和0.126,平均路径长度分别为3.989、3.786和3.241,说明 Kaggle中具有明显的小世界效应,有利于用户间进行交流与知识共享,推动创新合作和实现。
入度和出度中心性表示网络的整体中心性和集中程度,中间中心性和特征向量中心性表示网络中节点对信息流动和传播的控制作用。三个阶段的知识共享网络中心性指标之间有显著的正相关关系,并且呈现出明显的长尾分布。其中,提交阶段的知识共享网络更具有集中趋势,并且网络中大部分节点需要少部分中心度高、“权力”集中的节点作为桥接,以进行知识交流和共享。
4.2 ERGM结果分析
ERGM同时包含模型的内生变量和外生变量,本研究运用马尔可夫链蒙特卡罗极大似然估计(MCMC MLE)方法,通过多次迭代对模型参数进行估计,然后利用拟合优度(Goodness of Fit,Gof)值来评估模型的拟合效果。为了确保模型拟合效果,本研究选择准备阶段的知识共享网络,通过比较不同变量组合下赤池信息准则(AIC)和贝叶斯信息准则(BIC)的值来选择最优模型,AIC和BIC的值越小,说明模型越简洁、拟合效果越好。
表3给出了ERGM的拟合结果。模型1是仅考虑网络连接的零模型,模型2和模型3分别是内生变量(网络结构特征)和外生变量(用户节点属性)的模型拟合结果,模型4综合考虑了内生和外生变量对网络连接形成的影响。模型4的AIC和BIC值最小,说明拟合效果最好。本研究通过可视化图形的方法给出了拟合优度图,见图2。实线代表观测网络的测量结果,虚线代表仿真网络在95%的置信区间时的测量结果,当实线落在虚线之间时,说明仿真网络能够较好地代表观测网络的结构特征。由图2可以看出,模型4能够较好地解释入度(in degree)、出度(out degree)、边共享伙伴 (edge-wise shared partners)和二元组共享伙伴(dyad-wise shared partners)等特征。因此,本研究选择模型4验证三个阶段的知识共享网络生成机制。
表3 准备阶段知识共享网络的ERGM结果
图2 拟合优度图
表4给出了准备阶段、提交阶段和讨论阶段的ERGM参数估计结果。
ERGM结果显示,三个阶段的gwodegree参数估计值均显著为负,说明大量给他人回帖的用户并不会获得更多其他用户回帖,因此H1a没有得到验证。同时,影响力越大的用户越容易获得其他用户回帖,eigenvector centrality的参数估计值在三个阶段均显著为正,因此H1b得到验证,众包社区中用户间的吸引力和影响力差距越大,两者建立回帖关系的可能性越高。检验H2的参数为正且结果显著,说明知识共享网络具有很强的传递性,H2得到验证。另外,三个阶段的gwesp参数估计值分别为1.2566、4.3222和7.2693,表明随着时间变化,不同阶段知识共享网络的传递性越来越强,有利于用户间进行充分的信息交流和知识传递。三阶段的mutual参数值分别为0.1267,3.6466和4.2689,说明用户间互相回帖的倾向越来越强,因此H3得到验证。
关于用户节点属性对知识共享网络中连接形成的影响,EGRM结果显示,只有准备阶段的progression参数估计显著为正,提交阶段和讨论阶段的用户等级对用户回帖均无影响,这可能是因为在准备阶段,帖子主题主要集中在组队找队友和对竞赛题目的理解,高等级用户往往代表着知识水平高且竞赛经验丰富的群体,更容易获得来自其他用户的回帖,因此H4a得到验证。检验H4b的参数均为正且结果显著,表明众包社区中用户更倾向于向活跃度高的用户回帖,因此H4b得到验证。ERGM结果显示,在众包社区中,相同地域的用户间并不存在建立回帖关系的倾向,因此H5没有得到验证,说明与线下社交不同,在线社区为用户进行知识交流和信息传递打破了地域限制,地域的同质性不再是用户间建立联系的影响因素。检验H6的参数均显著为正,表明人气越高的用户越容易获得其他用户回帖,H6得到验证。其中,提交阶段的followers参数估计值最大,人气对回帖关系的形成有显著影响。
5 研究结论与启示
本研究选取众包平台Kaggle为研究对象,收集了发帖和回帖信息以及相关用户的属性数据,构建了知识共享网络,并运用ERGM从网络结构特征和用户节点属性两个角度综合探究众包社区中知识共享网络的生成机制。本文按照竞赛的时间顺序,将用户回帖分为准备阶段、提交阶段和讨论阶段,探究不同阶段网络结构特征的演化趋势和差异,并验证不同阶段影响回帖关系形成的因素。研究结果表明,在网络结构特征方面,知识共享网络具有传递性和互惠性,并且随着时间变化不断增强,优先连接机制得到验证,用户倾向于与影响力大的用户建立回帖关系;在用户节点属性方面,活跃度高和人气高的用户更容易获得其他用户回帖,用户等级对回帖行为的影响仅在准备阶段成立。
表4 三个阶段知识共享网络的ERGM结果
本文基于社会网络理论,将众包社区中知识共享行为的影响因素分为网络结构特征和用户节点属性两类,从社会网络分析、同质性、用户参与等角度探究知识共享网络的生成机制,对社会网络、众包社区的知识共享行为等方面的研究进行了补充。另外,基于本文的研究结果,对众包社区提出了参考建议,比如鼓励活跃度高和人气高的用户多发帖,对影响力大的用户提供积分翻倍奖励、用户抽奖概率增加等激励手段。
本研究仅利用发帖-回帖行为来构建知识共享网络,但知识共享行为可以从不同方面定义和理解,例如李立峰将知识共享关系网络定义为社区成员在参与产品创新过程中关注过相同的主题数量的描述;另外,本研究探究了众包社区用户进行知识共享的影响因素,未来研究可以进一步探索用户在社区里的知识共享行为对其参与竞赛的成绩和表现是否存在关联。