知识共享角度下的社会化问答社区用户分类
——以知乎为例
2020-10-23张建同褚威超
张建同 褚威超
(同济大学 经济与管理学院,上海 200092)
1 文献综述
随着虚拟社区的日益增长,越来越多的学者加入到虚拟社区的研究中。为探究用户价值和用户创利能力,学者们已经从不同的角度对用户进行分类,希冀为社区制定完善的管理政策。
早期学者主要以用户的参与程度为切入点来进行用户分类。Armstrong和 Hagel根据用户的参与程度及价值两个维度将用户划分为购买者、贡献者、潜水者、浏览者,其中购买者往往被认为最有价值,浏览者价值最低。Kozinets根据用户行为和消费行为将虚拟社区的成员定性分为浏览者、社交者、贡献者、内部者,但未考虑这两个指标量化的过程。同时,他也提出虚拟社区可以通过文化和社会强化消费来提升用户的忠诚度,使得游览者和社交者“升级”为贡献者和内部者。Wang和Fesenmaier从用户参与与用户贡献角度出发,通过构建结构方程提出了类似的分类,将用户分为游客、社交者、贡献者和内部者,为旅行社区提供有关关系营销和品牌建设的指导意见。
近年来,研究学者则多从用户之间的互动行为以及用户发帖行为等更为细致的角度出发,且研究的主体大多为社会化问答社区。毛波和尤雯雯以发帖数、回帖数、原发文章、精华数为衡量指标,利用层次性聚类与相似性聚类,将知识共享性虚拟社区成员分为领袖、呼应者、浏览者、共享者与学习者五类,为分析虚拟社区成员行为模式提供了基础。彭希羡等用计量学的方法,并利用决策树、相关性分析和关联规则对新浪微博的用户进行了分析,基于关注数、粉丝数、微文量将用户分为8类。陈娟等运用层次聚类法构建了以粉丝为因变量的Tobit模型,将用户细分为信息搜寻型、专家型和自我学习型。
除了聚类法、计量法等,社会网络分析在用户分类领域中也日趋流行,这主要得益于社会网络分析可以很好地量化用户之间的互动性行为。宫辉和徐渝根据虚拟社区用户关注与被关注变量,利用社会网络分析将社区成员分为精英型、实力型、活跃型和孤独型四类,并为社区信息传播改善提出指导意见。何黎等以点度中心度为衡量指标,筛选出微博中的核心用户,为构建微博社区提供指导性的意见。Toral等以点出度和中间中心度为指标,将社区成员分为外围用户、正式成员和社区成员。徐小龙和黄丹则从虚拟社区成员的互动行为出发,提出了更为详细的衡量指标,分别是主帖量、点入度、点出度、交往规模、互动程度和帖子内容。谷斌等从知识共享中心度和用户价值出发,利用聚类和社会网络分析将人大经济论坛分为核心用户、咨询者、边缘用户、信息获取者。
此外,社会网络分析在知识共享领域也占据主要地位。李长玲等为评估企业内部知识的传播效率,利用社会网络分析中密度、中心势、小世界分析三个指标,从知识共享的网络角度对企业内部知识的传播效率进行了分析,通过实证分析得出,网络密度越大,知识交流的密度越大,知识的传播效率也就越高。刘佩、林如鹏采用内容分析和社会网络分析探讨知乎用户的知识共享与知识分享行为,发现知乎社区呈现典型的“小世界”网络关系,并根据分析结果为社区提出改善建议,促进知识共享效率提升。王忠义等利用社会网络分析和熵权法分析了知识领袖在网络问答社区中的知识能力和传播影响力,并根据网络的“小世界”特征,提出了一种基于Cowan模型的知识共享模型,并根据实证结果提出了改善建议,以提升用户在社会化问答社区的学习效果。
综合以上文献,定量分析是当下研究的主流趋势。在用户分类上,研究学者多从用户之间的互动性行为角度出发,构建详细的分类指标,且分类结果也愈发细致。研究学者也会用聚类法、计量法、社会网络分析进行实证研究,并为社区提出改善意见。考虑到知乎的固有属性——知识共享,本文将从知识共享的角度出发,通过网络图和社会网络分析评估当今知乎社区的知识共享现状,并对知乎用户进行分类,最后为社区提出一些相应的改善意见。
2 成员分类模型构建
在社会化网络问答社区中,为了解决分类模型指标过于单一的问题,需要从多个维度对用户进行分类。结合社会化问答社区的特征,用户在社区中主要存在两种关系:(a)用户之间的关系,即用户知识共享中心度。其建立在用户间的特征行为上,即点赞、评论、关注、受关注等,反映了知识的共享以及传播情况。(b)用户与社区之间的关系,即用户价值。其表现在用户自身的行为上,即其登录社区的频率、文章数、提问数等,反映了用户的自身价值。因此,针对社会化问答社区的特点,本文采用了一个二维的用户分类模型,并对各个维度下具体的指标做出了改进,两个维度分别是用户知识共享中心度和用户价值。
2.1 用户知识共享中心度
用户知识共享中心度表示用户之间的知识共享与传播情况,在虚拟社区中,它反映了某一用户成为网络中一个中心的程度。中心度越高的个体,越有可能是网络中的一个中心,即“意见领袖”,其与更多用户存在关系。在社会网络分析中,中心度的指标有多种,如点度中心度、中间中心度和接近中心度。基于社会化问答社区的特征,本文将选取点度中心度和中间中心度来构建用户知识共享中心度指标。具体原因如下:
(1)点度中心度反映了用户的影响力和权威性。本文将采用点出度,即用户的关注作为具体指标。由于点入度(粉丝)往往过于庞大,点出度与其差距较大,因此两者不宜同时使用。另外,庞大的数据会使得网络图过于混乱、结果不够明显,因此点入度并不适宜。此外,点出度与点入度相比,前者是主动性行为,更具有代表性。
(2)中间中心度则反映了在知识共享途径上目标用户对其他用户的控制能力。在虚拟社区中,一部分用户可能未和很多用户建立直接联系,但其却和一些关键的核心用户有着紧密的联系,从而影响到外围的用户,发挥着间接的作用。
2.2 用户价值
RFM模型是典型的传统用户价值模型,Bult和Wansbeek对其做出了如下解释:(a)最近一次消费(R):顾客最近一次的购买行为和分析时间的间隔天数。(b)消费频率(F):计算期内顾客购买产品或服务的次数。(c)消费金额(M):计算期内客户购买的总金额。
此外,该模型被广泛应用于多个领域。Tsai和Chiu基于客户采购产品类型和历史记录对用户进行分类,并利用RFM模型分析各类用户的购买能力,为营销策略提供依据。刘伟和丁志慧则将RFM模型应用于虚拟社区中,从而构建了LAT模型,该模型的衡量指标为近度、频度、值度。他以五菱车友会论坛作为实证对象,利用聚类分析将用户分为重要成员、浏览者、沉没成员三类。
对于虚拟社区而言,LAT模型的三项指标可以比较好地反映用户在虚拟社区的个人价值,但其选取的指标本质上只考虑了用户的访问时间和用户的贡献程度两个维度。但在社会化问答社区中,就知乎而言,用户还存在获得感谢数、获得赞同数等指标,这些指标可以很好地反映该用户被其他用户认可的程度。因此,综合考虑时间、文章、获得赞同数等指标,可使得后续分类更具代表性。但考虑到初始指标数量过多,因此需要对其进行因子分析,来选取新的衡量指标作为用户的分类标准。
2.3 模型构建
综上,用户在社会化问答社区中仅存两种社会关系:(1)用户之间的关系;(2)用户与社区的关系。本文将以用户的关注行为作为用户之间关系的衡量指标,以用户的文章数、专栏数等作为用户与社区关系的衡量指标。考虑到知乎社区的固有属性——知识共享,因此将上述两种关系定性为用户知识共享中心度和用户价值。每一个维度下用户都可以被分为3类,即低、中和高,从而形成3×3的矩阵,共9种类别。但考虑到过多的类别可能会造成彼此之间的界限过于模糊,且各类别的特征不够鲜明,因此后续将对分类结果做进一步完善与优化,共得到5种类别。
3 数据获取与处理
本文利用Python爬取知乎的用户数据。数据爬取的基本思想是从某一用户(初始用户)开始,首先获取他的个人信息以及他的粉丝和关注列表,之后二次递归遍历上述列表中每一个用户的个人信息及他们各自的粉丝和关注列表,并将数据存储到数据库MongoDB中。其中,初始用户最好具有代表性,即所谓的领袖人物,其延伸开来的社交网络在一定程度上可以作为社区的缩影。这类用户在社区中比重很小,但是其往往有很大的粉丝数。因此,选取的初始用户要确保其粉丝数上万,从而保证爬取到的用户数据量充足且可以较好地反映社区现状。在爬取过程中,获取的用户信息主要涉及用户的姓名、用户类型、关注列表的姓名等,具体见表1。
表1 用户的信息列表
第一部分数据共收集到6624名用户的个人信息,截止时间为2019年4月12日。在该数据的基础上,随机选取80位用户作为获取第二部分数据的种子,具体见表2。据统计,删除“已注销”“已重置”“涉嫌违规”以及use_type为组织(org)的用户。表2的用户及其关注名单累积达10168名。
表2 选取的80名用户及其关注列表的姓名
该部分数据后续将用于社会网络分析,用户作为网络图的节点,用户之间的“关注”作为边。若直接将所有用户用来构建网络图,会造成节点数量过多、网络图过于混乱。因此,需要对网络图进行简化,并保证简化后的网络图与原网络图有相同的结构。因为网络图中低度节点比重较大,所以删除这些节点可以较好地维持原有的网络结构。简化的方法是不断删除点度为1的用户,再不断删除点度小于等于2的用户,直到某一个临界值。公式(1)如下:
(1)
其中,Pc表示移除节点的临界百分比,k是平均节点度。计算求得原网络的Pc为92.78%,因此本文选取的节点最小度为3,移除了91.5%的节点,简化后的网络节点数为862,即862名用户。
第二部分数据在第一部分数据预处理的基础上获得。通过selenium虚拟浏览器遍历862名用户的url_token和user_type来访问其用户主页,用作后续的价值评估。获取的信息共计12个,第一个为姓名用作标识符,截止时间为2019年9月26日10时,具体见表3其中,近度表示用户最近1次发布动态的时间距离检测时间的差值,频度表示用户最近7次发布动态的平均时间。
表3 从知乎上获取的初始指标
为便于后续的数据分析,除姓名以外,需要对另外11个指标进行数据预处理。首先,近度和频度两个指标都乘以负1,使得所有指标都满足数值越大、用户价值越高的准则。其次,为解决各指标量纲不统一问题,对数据进行归一化处理。此处采用Z-标准化方法,使得数值满足标准正态分布。公式(2)如下:
(2)
4 数据分析
在对数据进行相应的预处理后,本文将对第一部分数据(用户知识共享中心度)进行社会网络分析,对第二部分数据(用户价值)进行因子分析。
4.1 用户知识共享中心度分析
将上述成员关系矩阵导入Ucinet中,得到用户之间的知识共享网络图,利用Gephi根据用户的点出度大小来设置节点的大小和颜色,其中节点越大,颜色越深,代表其点出度越大,具体见图1。
图1 用户之间的知识共享网络图
由图1可以看出越突出的节点,表示该用户与其他用户共现的次数越多,即与其他用户的关系更为紧密,在知识共享过程中也就起到较为重要的作用。用户如董峰、Jack tang、学而时习等处于网络图的中间,与其他人的联系较多,而在网络图边缘的用户与其他用户的联系则较少。
在网络图的分析过程中,第一,从网络的角度出发,对该网络的集中性进行评估。网络密度是网络集中性很好的衡量指标,数值越大,说明该网络越具有凝聚力,其信息传播速度会越快。通过计算得出,该网络的密度为0.01,远远小于0.5,因此用户之间的联系不是很紧密,难以实现有效且快速的知识共享。其主要原因是边缘用户与其他用户之间的联系不够紧密,核心用户受到的关注较少。
第二,从点的角度出发,利用一些量化的指标来看待网络图,这也使得后续的分类结果更为科学。根据用户之间的共现矩阵,分别计算各个用户的点度中心度和中间中心度,并作描述性统计,具体见表4。网络平均点度中心度为8.9,即每个人平均同8.9个人发生直接交互,但其标准差为25.4,中间中心度的标准差则更为夸张,达到了4696.8。这表明在社区中,用户的两极化非常明显,大多数用户之间的联系不是很紧密,但都高度集中于个别核心用户上。
表4 用户的点度中心度和中间中心度描述性统计
点度中心度的幂律分布曲线见图2,求得回归曲线公式为y=0.1474x(-1.372),相关系数R2为0.8469,因此该曲线的相关性较好,整个网络符合幂律分布,这进一步说明网络中的节点存在帕累托效应,即大多数用户的点度中心度低,少数用户的点度中心度高。其中,点度中心度为3的用户共计367人,占总人数的42.58%;在3~14,用户的分布数量急剧下降;而在大于14的区间中,用户分布较为平均,差别几乎不大,且数量较少。基于此可以推断出,知识共享的主要形式是从一些核心用户出发,然后向周围的一些用户进行扩散。这些核心用户在社区中往往有着较高的话语权和地位,他们发布的评论、提问等会对其他人造成较大的影响,从而控制知识共享的效率以及方式。因此,识别这些核心用户对知识共享效率的提升起着至关重要的作用。
图2 点度中心度的分布
由上文可以看出,用户知识共享中心度指标主要涉及点度中心度和中间中心度两个方面。在数据预处理搭建共现矩阵的时候,筛选的基准是共现频次大于等于3。其次,由前文得出知乎存在帕累托效应,即“二八原则”。
因此,用户知识共享中心度高的用户筛选基准如下:(a)绝对点度中心度大于3;(b)中间中心度大于80%的分位点,即254.881。经过筛选后,一共得到167位用户,占比为19%,这类用户无论是从点度中心度出发,还是从中间中心度出发,都位于前列,对促进社区知识共享起到较为关键的作用。用户知识共享中心度低的用户筛选基准如下:绝对点度中心度小于等于3,占比43%。这类用户对于社区中的知识共享所起的作用微乎其微,但其庞大的数量是社区存在的坚实基础。剩余的用户则是知识共享中心度为中,占比38%。尽管这一类用户在知识共享过程中并不占据主导地位,但随着时间的推移,一部分用户会慢慢转化成高知识共享中心度用户,从而起到领袖作用。
4.2 社区用户价值分析
将第二部分数据导入SPSS软件中选取主成分法进行因子分析。对标准化后的数据进行相关性检验,结果见表5。因为KMO值为0.597且Bartlett′s检验的P值小于0.05,所以可以进行因子分析。
表5 KMO 和 Bartlett 的检验
分析结果若以特征值大于1为筛选标准,则共提取出4个公共因子,但第四个公共因子的特征值为1.093,贡献率只达到9.934%,接近于原先一个初始因子的贡献率,予以剔除。因此,分析结果中共提取出3个公共因子,累积贡献率为63.934%。其中,第一个公共因子的贡献率为32.067%;第二个公共因子的贡献率为17.372%;第三个公共因子的贡献率为14.495%。因子载荷矩阵及其贡献率见表6。
表6 因子载荷矩阵及贡献率
为较为直观地观察各个因子中哪些因素的比重较大,对因子载荷矩阵按照最大方差法进行旋转,结果见表7。其中,第一个公共因子主要综合了获得感谢数、获得收藏数、获得赞同数、粉丝数四个变量,故将其概括为用户的认可度;第二个公共因子主要综合了想法数、问题数、回答数、专栏数、文章数五个变量,故将其概括为用户的贡献度;第三个公共因子主要综合了近度和频度,故将其概括为用户的黏度,表示用户对社区的依赖程度。因此,在用户价值维度中,认可度、贡献度、黏度将作为新的衡量指标。
表7 旋转因子载荷矩阵
每个用户在各个公共因子下的得分是其评价的依据,可根据原始指标的标准化数据和对应的因子载荷得出,公式(3)如下
(3)
其中:Fnj代表第n个用户在第j项公共因子的得分;Xni代表第n个用户在第i项原始指标的标准化数据;Aij代表第i项原始指标在因子载荷矩阵中第j项公共因子的数值;λj代表第j项公共因子的特征值。
求得所有用户在三个衡量指标下的得分后,将每一个指标的得分与该指标的均值进行比较,其结果可能大于(等于)或小于均值,则三项指标分类的情况共有23=8类。其用户分类准则如下:若三项指标中三项都大于均值,成员的用户价值为高,共计89人。尽管这类用户数量较少,但其往往具备深厚的知识底蕴,为社区注入了源源不断的文化知识,并在用户之间广为传阅。若三项指标中,有且仅有两项大于均值,成员的用户价值为中,共计213人,这一类用户是用户价值协同进化中的中坚力量,其中有一项低于均值,可能是受注册时间的限制。若三项指标中,有两项及以上小于均值,成员的用户价值则为低,共计560人。
4.3 用户分类
根据用户知识共享中心度和用户价值这两个维度,可以初步将用户分为九类,如表8所示。
表8 用户分类初步结果
可以看出,不同类别之间的用户数量差距较为悬殊,且彼此之间的界限较为模糊,不能很好地突出各类别用户的个性特征。此外,对于虚拟社区来说,用户进入社区的时间先后在很大程度上决定了用户当今所处的位置,所以过多的分类会使得结果存在失真的问题。
因此,本文对上述分类结果进行部分合并,最终分类结果见表9。第一类用户为核心用户,即分类1,共计17人。他们往往是形成知识板块的领袖人物,不仅有着扎实的专业基础,同时又有着良好的群众基础,且热衷于在平台上分享自己的人生经验和知识,是推动社区知识共享的强大动力。第二类用户为询问者,即分类2和3。这两类用户的知识共享中心度为高,但在用户价值角度看尚有不足,需要进一步提高,共计149人。他们在社区中很少发表自己的看法与意见,却关注了很多用户,形成了密集的社交网络,以此来了解一些实时动态,丰富自己的知识。第三类用户为回答者,即分类4和7,其分类依据与询问者类似,共计72人。这类用户往往具备一些专业知识且愿意在知乎上分享自己的问题与见解,也有着比较好的群众基础,但与其他用户的互动较少,更愿意做一个知识的发源地。第四类用户为潜水者,即分类9,共计240人。这类用户往往缺乏专业知识,且没有足够的群众基础,也不愿意关注一些核心用户,探索自己感兴趣的内容,因此这类用户往往对社区的黏度最低,是最容易流失的用户。第五类用户为活跃者,即分类5、6和8,该类用户至少有一项指标为中,表明这些用户有一定的社交基础或者知识架构,他们可以看作从潜水用户向询问者和回答者过渡的用户,共计384人。这类用户典型的代表现象就是用户为满足自身的知识需求,通过关注一些核心用户,从而实时获取相关领域的内容。但相较于询问者和回答者,目前这些用户尚且并不具备专业的知识和广阔的人脉,对于社区的一些规则和内容还处于摸索阶段。但不可否认的是,他们是社区中至关重要的角色,是知乎社区进化过程中的中坚力量,象征着社区的潜在底蕴,在一定程度上决定了社区未来的发展方向。
表9 用户分类最终结果
根据最后的分类结果可以看出,在选取的样本中,活跃者最多,潜水者次之,核心用户最少。这也进一步证实了知乎社区中存在典型的二八原则,只有少数用户在知乎处于主导地位,对知识的传播起着关键性作用。但由于潜水者几乎起不到促进知识共享的作用,结合其庞大的用户数量,使得社区中的知识共享效率大打折扣。不过,大量活跃者的存在在一定程度上证明了知乎社区的巨大潜力,因此社区需要制定相应的策略对其进行激励,来改善目前社区中知识共享效率低下的现象。
5 改善方案
知乎是一个社会化问答社区,它既是一个社交平台,也是一个分享知识的平台,这是其能够在众多虚拟社区中脱颖而出的关键。随着知乎的日益成长,越来越多的用户加入这一个社区中,并在社区中发布自己的问题与回答。但在新用户加入的同时,问题也随之产生。本节将结合前文中用户分类的结果,分别从用户角度和社区角度对社区提出一些改善方案,以促进知识共享。
5.1 用户角度
根据上文将用户从用户知识共享中心度和用户价值两个维度分成核心用户、询问者、回答者、潜水者、活跃者五类的分类结果,社区应当采取不同的应对措施来服务用户,从而提升知识的传播效率。对于核心用户,社区应当对其重点维护,为其提供合理的个性化服务,例如授予核心用户一些勋章及特权,如“知识大V”等称号;定期组织一些线下交流会,让他们面对面地分享自己的知识与人生经验,增强用户之间的联系,从而可以在一定程度上避免用户的流失。对于询问者,社区可以设立一定的激励措施如积分等促使他们发表自己的问答与文章等。对于回答者,社区可以适当总结这些用户的兴趣爱好,结合推荐系统,向这些用户定期推送一些他们感兴趣的优秀文章及用户,增强其互动性行为。对于潜水者,社区可以统计其相关的注册信息,并对一些长期离线的用户发送清理通知,减少社区对其维护的资源和时间。同时,社区也可以发布一些有价值的信息,促使这类用户向活跃者转变。对于活跃者,社区应当给予大量的优惠政策及奖励,如等级制度、板块冠名等,培养其进一步探索社区的兴趣。此外,可以安排一些核心用户与活跃用户的见面会,彼此之间可以大胆地交流经验与心得,从而营造浓厚的知识交流氛围,并增强了活跃用户的幸福感。
5.2 社区角度
伴随着用户数量的增多,社区首当其冲的问题就是如何确保社区氛围依然是高质量的知识共享。由于用户的多样性和隐蔽性,社区应当制定一定的规则来规范用户的行为,最好是让用户参与制定的过程,并对规则进行进一步修正。此外,在用户中挑选一些执法者,结合当今社会中关于网络言论的法律,对于一些散布不实言论的用户进行严惩。社区还应当对用户发布的一些问题以及用户的一些评论进行筛选,确保发布的内容有较高的质量且合理合法,避免出现社区氛围变差、社区内容质量下降等现象。除了过滤掉这些劣质用户的言论,社区对于一些优质的文章应当设立更高的标准并对其进行推送与置顶,这不仅仅增强了用户的存在感与满足感,也保证了社区的学术氛围。
此外,社区应当结合当今的大数据技术、文本分析等,对用户之间共享的知识进行整合并建立知识库,并为用户提供方便快捷的知识获取途径,确保其功能做到简单易学,减少用户的学习成本,从而及时解决用户学习中存在的一些问题。为增强用户对社区的归属感,社区还可以提供一些人性化的服务,如节日祝福、用户晋级祝贺等。
6 结论与展望
本文结合社会化问答社区的特征,以知乎社区为实证对象,从用户知识共享中心度和用户价值两个维度出发,结合社会网络分析和因子分析,将用户分为核心用户、询问者、回答者、潜水者、活跃者五类。
研究结果表明,网络图的密度为0.01,反映了知乎社区存在知识共享效率低下的问题。此外,社区中核心用户的比例只有1.97%,而潜水者的比例为27.84%。悬殊的数量表明大部分的用户并没有参与到社区的知识共享建设中,只有部分核心用户对其起到促进作用,这可能是社区知识共享效率较低的主要原因。另一方面,活跃者的比例占了44.55%。因此,可以推断知乎社区中仍有着巨大的潜在用户可以挖掘,有助于社区未来的发展。本文结合五类用户的特征,为社区提出了一些相应的改善方案。例如,给予用户一些优惠来增强用户对社区的黏性,并吸引一些新用户;优质文章的置顶,使得社区保持浓厚的知识氛围,从而实现知识共享效率的提升。
本研究在用户知识共享中心度的指标下,仅仅考虑了用户的关注情况,并没有考虑用户之间实际的发帖与回帖情况。此外,对于如何促进知识共享效率,本文仅提出了一些改善建议。因此,后续对这一类问题的研究,可以多考虑用户的互动性行为,并对知识共享效率情况进行仿真,探究改善的实际效果。