比特币交易P2P网站中意见领袖的识别与分析
2019-09-10李锋王妍沣胡锦亚
李锋 王妍沣 胡锦亚
摘 要:P2P交易网站中,用户被其他用户的评价有正面评价也有负面评价。这使得网络中意见领袖的观点更加重要,而意见领袖的识别也变得更加复杂。本研究从一个比特币交易网站上获取用户之间的评价数据集合,构建了用户评价的有向加权符号网络。同时,根据用户评价他人的记录和被其他用户评价的记录,对用户进行类别划分。进而,从复杂网络分析的视角,对用户的评价数量和评价值分类统计;并且,计算了用户各个属性之间的相关性。计算和分析结果表明,描述用户行为的多个属性之间存在着较强的正向相关性;而用户的网络入度指标或出度指标,都可以作为网络意见领袖的评价指标。
关键词:意见领袖;比特币交易网站;用户评价;社会网络分析;加权符号网络
中图分类号: F820.3 文献标志码:A 文章编号:1009-055X(2019)06-0064-10
doi:10.19366/j.cnki.1009-055X.2019.06.008
一、引 言
意见领袖是社会关系网络中最具影响力的节点,其对整个网络的意见导向起到了关键和核心的作用。通常来说,意见领袖在社会关系网络中超出普通用户的“朋友/粉丝”数量,使得其发布或转发的信息能够迅速散开,极大提高了信息扩散的网络覆盖率指标。同时,意见领袖建立起的网络信誉,使得其观点能够为“朋友/粉丝”所接受,并因此能够在线上舆论中引导争议性话题的发展方向。因此,对于意见领袖的识别和描述是线上社交网络平台上的热点议题。
随着社交电子商务的不断发展和模式创新,意见领袖的经济价值更加凸显[1]。一方面,意见领袖对于“新”产品的推荐,能够使得该产品迅速在其社会关系网络上扩散开去,市场识别度甚至超过了传统的广告营销。另一方面,意见领袖对于特定产品的好坏评价,通过其社会关系网络的扩散,甚至能够左右产品的市场需求。因此可以说,社交电子商务成功的关键之一就是在于找到产品在社交平台上的意见领袖。
但是,当前对于社会关系网络上的意见领袖的识别还停留在对普通社交平台上的用户分析和评价。对于社交电子商务网站中的社会关系网络、意见领袖的识别还处于探索阶段,研究工作和成果并不多见。相较于普通社交平台上的意见领袖识别,社交电子商务平台上意见领袖的识别复杂性主要体现在以下两点:
(1)社交电子商务平台上的用户通常以产品交易双方为主,意见领袖的涌现无法以普通社交平台上的用户“粉丝”数量评价。
(2)社交电子商务平台上的用户关系为买卖交易关系,而用户之间的评价会因交易的产品和交易的过程有好有坏,意见领袖的舆论导向也分正面和负面两类。
因此,对于社交电子商务平台上的社会关系网络必须采用能够再现好/坏(正/负)的复杂网络形式——符号网络。并且,对于意见领袖的识别也必须根据符号网络中连接线和连接线符号的应用含义来定制。
本文以一个P2P比特币(Bitcoin)交易网站为例,通过构建其用户群体的社会关系网络,从中发现意见领袖。
二、国内外研究现状
意见领袖的识别问题原本是信息传播领域中的热点问题。随着Web 2.0及线上社交平台的繁荣,社交电子商务的兴起,意见领袖的研究工作已经逐步向社会和经济领域扩散。对于企业而言,意见领袖的重要地位在于其对产品口碑营销的贡献[2]。
但是,当前对于社会关系网络中的意见领袖研究主要是针对一些大众型的社交平台,如国外的Twitter[2]、Facebook[3],国内的微博[4]、知乎[5]等。其中,对于社会关系网络中的意见领袖识别,通常采用的是社会网络分析中的网络节点中心性指标[6],计算节点重要性的PageRank算法[3]、HITS算法[3],以及引入用户“画像”属性的指标体系和多属性评价模型[2],信息扩散的主路径分析方法[7]等。而为了验证意见领袖的影响力,采用的研究方法主要包括实证分析[8]和仿真分析[2,4,5]两种。
这些前期工作中的社会关系网络与本文所研究的P2P交易网站中用户之间的社会关系网络不同在于,P2P交易网站中的用户节点关系为交易关系,即发生产品买卖的用户之间的关系——社会关系网络中節点连线相对稀疏;并且,P2P交易网站中卖家与买家之间的交易连线通常定义为买家对卖家的产品和服务的评价,或卖家对买家的交易过程的评价——网络中节点连线权值有大有小、有正有负,难以采用传统社会关系网络分析中的无权网络或加权网络构建其网络模型。因此,必须采用复杂网络分析中的加权符号网络进行系统建模[9]。
由于加权符号网络中连线的正负、权值在不同的应用背景中代表着不同的含义,对于加权符号网络的研究工作更加发散。例如,从复杂网络的视角研究加权符号网络的网络整体结构属性和节点特征[10-11];从符号网络的视角(结构平衡理论)研究节点之间连线符号的正确性,并对“缺失”的连线进行符号预测[12-15]。而对网络中意见领袖(关键节点)的识别,多是在PageRank算法上进行改进,使其能够分别对正负权值分开处理[16-17];或者采用仿真的方法,以影响力最大化为目标搜索出意见领袖集合[18]。但是,这些对网络中关键节点/意见领袖的识别算法,都是将研究对象看作是一个无权符号网络,即网络连线的权值仅为+1或-1。这一点与P2P交易网站中用户评价分等级的实际情况差异较大。因此,必须结合具体的应用问题,以及连线权值的含义针对性地定义意见领袖的评价指标体系。
本文就是针对一个具有较长时间跨度的比特币交易P2P网站,通过构建交易用户的加权符号网络,从中识别意见领袖。
三、比特币交易平台及数据集合
(一)比特币交易平台简介
本文研究的比特币交易P2P网站为Bitcoin OTChttps://www.bitcoin otc.com.。在此平台上,比特币买家可以与比特币卖家直接联系和交易,不需要网站对交易进行监管和担保。
但是,为了避免用户在交易中遇到不诚信用户而上当受骗,交易网站提供了一个用户之间的打分评价系统。在此系统中,用户可以对交易对象打分。分数取值范围为-10到+10,数值越大表明用户对交易对方评价越高,数值越小表明用户对交易对方评价越差https://wiki.bitcoin otc.com/wiki/OTC_Rating_System.。因此,用户被其他用户的评价分数值越高,表明与该用户交易的风险越小;反之,用户被其他用户评价分数值越低,则与该用户交易的风险越大。
然而,不诚信用户的存在使得用户的交易风险评价变得非常复杂。不诚信用户可以利用该系统获得较高的被评价分数,从而有可能欺骗那些仅根据被评价分数的高低来选择交易对象的用户。在Web 2.0时代,此类用户被称为“网络水军”,并大有人在[19]。因此,如何过滤掉这些用户对评价系统的干扰,从而能够有效地识别出网络中的关键节点和意见领袖,成为一个非常复杂的问题。
(二)用户相互评价的加权符号网络
斯坦福大学的网络分析项目(Stanford Network Analysis Project, SNAP)于2016年对Bitcoin OTC网站实施了数据抓取,发布了一个名为“bitcoin otc”的数据集[14]。该数据集总共包括35 592条评价信息,涉及用户数量为5 881人。数据集中每条评价信息包括四个字段:评价者、被评价者、评价分数和评价时间。
本文以评价者、被评价者和评价分数三个字段构建有向、加权、符号网络。其中,每个网络节点代表系统中唯一的一个用户,而有向边则定义了一位用户对另外一位用户的评价值。
所得到的加权符号网络的基本统计信息如表1所示。忽略加权符号网络中连线的方向和权值,可以计算得到网络的平均聚类系数、网络直径和平均路径长度等指标。
对网络中每个节点的入度指标和出度指标进行统计,得到网络入度和出度指标的分布情况如图1所示:
对节点入度和出度指标进行幂律函数检验,得到入度指标的幂律分布函數参数ν=2.270 4(KS检验值为0.037 602,p检验值为0.462 782);出度指标的幂律分布函数参数ν=2.058 9(KS检验值为0.035 791,p检验值为0.143 565)。这个结果表明网络节点的入度和出度指标基本服从幂律分布,服从无标度网络的网络定义[20]。
(三)用户评价网络的网络整体描述
Bitcoin OTC网站的评价系统对于每一位交易用户提供了以下统计数据:
CI-1:该用户评价其他用户的总分数。
CI-2:该用户给其他用户正面评价(评价值大于零)的总次数。
CI-3:该用户给其他用户负面评价(评价值小于零)的总次数。
CI-4:该用户被其他用户正面评价的总次数。
CI-5:该用户被其他用户负面评价的总次数。
本文借鉴这五个指标对bitcoin otc数据集中的5 881个节点进行统计。得到这几个指标的分布如图2所示:
另外,为了与指标CI-1对应,本文计算并统计了:
CI-6:该用户被其他用户评价的总分数。
从图2可以看出,网络节点的这6个统计指标比较集中,只有少数节点的指标值偏离均值。
为了进一步发现网络节点的特征,结合指标CI-2、CI-3、CI-4和CI-5,下面分别给出了按照评价值的正负得出的统计分布。
对于用户对其他用户评价的分数进行统计,按照评价值的正负分类统计。下面给出了分类统计的4个指标值(如图3):
CI-2-S:该用户给其他用户正面评价的分数的累计值。
CI-2-A:该用户给其他用户正面评价的分数的平均值。
CI-3-S:该用户给其他用户负面评价的分数的累计值。
CI-3-A:该用户给其他用户负面评价的分数的平均值。
同理,对用户被其他用户评价的分数进行统计,按照评价值的正负分类统计(如图4)。
从图2、图3和图4所示的网络节点的指标来看,网络中多数节点的指标相对集中,只有少数节点的指标值偏离集中值较多(从指标CI-2-A、CI-3-A、CI-4-A、CI-5-A的统计分布上可以直观看出这些特点)。
四、意见领袖的特征识别
(一)用户各指标的一致性检验
图1至图4所示网络中节点的指标统计结果显示,多数节点的行为模式比较接近,呈现出类似正态分布的分布特征。
指标CI-2-A、CI-3-A、CI-4-A、CI-5-A进一步表明有少数节点表现出脱离大众的行为特征。根据前期研究成果表明,这4个指标的异常值所代表的用户节点多数被证明是问题节点(“骗子”节点)[11]。因此,剔除这些指标,采用pearson相关系数计算节点这些指标的指标值一致性。
通过表2所示的pearson相关系数,可以看出:
(1)网络用户的出度指标与入度指标、CI-2和CI-4具有较强的正向相关性。
(2)指标CI-6与出度、入度、CI-2和CI-4具有相对较强的正向相关性。
(3)指标CI-1和指标CI-3,指标CI-5和指标CI-6具有较弱的负向相关性。
根据加权符号网络的构建方法,网络节点的出度实质上是网络用户对其他用户评价的总次数,入度则是网络用户被其他用户评价的总次数。因此,结合pearson相关系数的计算结果,可以得到以下结论:由于用户对他人的评价值有正有负,因此,用户对其他用户评价的总次数(出度)与用户对其他用户评价的总分数(指标CI-1)相关性不高。但是,节点的出度与节点的入度,以及与该用户对其他用户正面评价的总次数(指标CI-2)和该用户被其他用户正面评价的总次数(指标CI-4)具有较强的相关性。
根据节点的入度、出度、指标CI-2和指标CI-4之间的强正相关性,可以初步认为网络节点的重要性/意见领袖与节点的出度或入度具有较强的相关性。因此,可以以节点的出度或入度作为网络节点的意见领袖特性评价。
(二)意见领袖特征的正确性检验
以节点的出度或入度作为网络意见领袖的判定标准,但是结合比特币交易网站的加权符号网络描述,存在以下问题需要深入挖掘:用户的出度或入度较高,但是如果被其他用户给予负值评价时,该用户有可能是“骗子”用户,此用户不能被标签为网络的意见领袖。
因此,根据用户评价他人的情况,以及该用户被他人评价的情况,将用户分为以下八类:第1类简写为(P,P),第2类简写为(P,N),第3类简写为(P,Z),第4类简写为(N,P),第5类简写为(N,N),第6类简写为(N,Z),第7类简写为(Z,P),第8类简写为(Z,N)。其中,标号“(X,X)”中第1个字母X描述了该用户对其他用户的评价总体情况,第2个字母则描述了其他用户对该用户的评价总体情况。具体来说,字母P表示正值(positive),代表用户对其他用户的评价全部为正值,或被其他用户的评价也全部为正值;字母N表示负值(negative),代表用户对其他用户的评价有负值(并不强制要求所有的评价都是负值,即有正有负),或被其他用户的评价也有负值;字母Z表示零(zero),代表用户没有对任何一个用户进行评价,或被其他用户评价。另外,如果一个用户既没有对其他用户评价,也没有被其他用户所评价,(Z,Z)则表示该用户没有进行任何交易。这样的用户在网站的用户评价系统中数量为0。因此,后续并不对其进行分析。
鉴于评价节点意见领袖的指标(出度或入度),以及与其强正相关的指标CI-2和指标CI-4,表3对这8类节点进行指标统计。
从表3数据可以看出,分属于类别(N,N)和(N,P)的节点在平均出度、平均入度、CI-2均值和CI-4均值都显著高于其他类节点。
以不同类别节点的入度指标进行分类统计,得到如图5所示的統计结果。
不同类别的用户节点具有较为相似的行为特征(指标值),指标值集中趋势良好。
为了进一步检验网络意见领袖的指标特征,表4和表5分别以节点出度和节点入度作为评价意见领袖的指标,选取了指标值排名前10的节点进行指标展示。
对比表4和表5中数据,表4中以出度为评价指标的意见领袖与表5中以入度为评价指标的意见领袖有高度的重合。例如,表4和表5中,是同一节点的节点对序号分别是:(a-1)、(b-2)、(c-3)、(d-5)、(e-7)、(f-9)、(g-6)、(h-8),只有入度指标判定的意见领袖i和j与出度指标判定的意见领袖4和10没有重合。
但是,表4和表5中入度和出度都非常高的节点(c-3)指标CI-5均为41,这意味着有41位用户给予此“意见领袖”以负面评价。
为此,进一步对这41个节点进行分析。统计结果显示这41个节点有39个节点为(N,N)类节点(另外两个节点为(N,P)类节点)。将表3所示的(N,N)类节点的各指标集中趋势(平均值),与这39个(N,N)类节点的各指标集中趋势进行对比,得到表6所示数据。
从表6数据对比可以看出,对编号为c的节点给出负面评价的节点,其指标值非常显著地偏离了网络中此类节点的整体特征。根据前期的研究分析[11],此类节点自身存在问题,具有较大的可能性属于网络中的“骗子”节点,即有可能是“骗子”节点被识破后的报复行为。表6类似地给出其他几个节点的情况(编号为b的节点指标CI-5仅为1,所以只给出了该节点的指标值)。
(三)小结
通过以上的数据分析,可以得出以下结论:
依据比特币P2P交易网站上的用户评价所构建的加权符号网络,网络中节点(用户)行为模式非常相似;根据用户对他人的评价值符号,以及其他用户对该用户的评价值符号,对网络中的所有节点进行分类,分类结果良好(相同类别中节点各指标值较为集中,不同类别节点的各指标值差异显著);虽然用户之间的评价值有正有负,并且评价值有大有小,但是以节点的出度或入度作为其意见领袖的评价指标,指标依然有效。
五、结论及展望
本文以当前流行的P2P交易网站用户群体为对象,通过构建用户相互评价的网络来识别其中的意见领袖。通过分析发现,虽然用户之间的评价有好有坏、评价值也有高有低,但是采用复杂网络分析中的节点出度指标或入度指标能够简单快速并有效地识别网络中的意见领袖。
参考文献:
[1]HAJLI N, SIMS J, ZADEH A H, et al. A social commerce investigation of the role of trust in a social networking site on purchase intentions [J]. Journal of Business Research, 2017, 71(1): 133-141.
[2]LI F, DU TC. Listen to me—evaluating the influence of micro blogs [J]. Decision Support Systems, 2014, 62(1): 119-130.
[3]赵之滢, 于海, 朱志良, 等. 基于网络社团结构的节点传播影响力分析 [J]. 计算机学报, 2014, 37(4): 753-766.
[4]LI F, DU TC. Maximizing micro blog influence in online promotion [J]. Expert Systems with Applications, 2017, 70: 52-66.
[5]魏莹, 刘冠, 李锋. 线上社交网络上信息扩散中“隐形”关键节点的识别及影响力评价[J]. 情报科学, 2018, 36(3): 138-143.
[6]任晓龙, 吕琳媛. 网络重要节点排序方法综述[J]. 科学通报, 2014, 59(13):1175-1197.
[7]魏莹, 李锋. 基于主路径分析的关键节点识别与谣言扩散抑制研究[J]. 情报科学, 2018, 36(6): 13-19.
[8]谢耘耕, 荣婷. 微博传播的关键节点及其影响因素分析——基于30起重大舆情事件微博热帖的实证研究 [J]. 新闻与传播研究, 2013(3): 5-15.
[9]程苏琦, 沈华伟, 张国清, 等. 符号网络研究综述 [J]. 软件学报, 2014, 25(1): 1-15.
[10]GU K, FAN Y, ZENG A, et al. Analysis on large scale rating systems based on the signed network [J]. Physica A, 2018, 507: 99-109.
[11]李锋, 胡锦亚. 基于加权符号网络的比特币交易平台用户交易风险评价 [J]. 华南理工大学学报(社会科学版), 2019, 21(1): 15-27.
[12]MA L, GONG M, YAN J, et al. A decomposition based multi objective optimization for simultaneous balance computation and transformation in signed networks [J]. Information Sciences, 2017, 378(C): 144-160.
[13]DU H, HE X, WANG J, et al. Reversing structural balance in signed networks [J]. Physica A, 2018, 503: 780-792.
[14]KUMAR S, SPEZZANO F, SUBRAHMANIAN V S, et al. Edge weight prediction in weighted signed networks [C]. In Proceedings of 2016 IEEE 16th International Conference on Data Mining, Barcelona: IEEE, 2016, 221-230.
[15]伍杰华. 异构符号网络中正负社交关系的分类预测研究 [J]. 情报科学, 2016, 34(1): 81-86.
[16]顾洁, 胡安安, 刘旭, 等. 社交网络正、负影响力计算——基于符号网络的PageRank算法改进 [J]. 情报学报, 2015, 34(7): 725-733.
[17]曹林林, 郑明春. 微博话题符号网络下的意见领袖挖掘算法研究 [J]. 计算机应用研究, 2017, 34(12): 3547-3551.
[18]LI D, WANG C, ZHANG S, et al. Positive influence maximization in signed social networks based on simulated annealing [J]. Neurocomputing, 2017, 260: 69-78.
[19]莫倩, 楊柯. 网络水军识别研究 [J]. 软件学报, 2014, 25(7): 1505-1526.
[20]BARABASI AL, ALBERT R. Emergence of scaling in random networks [J]. Science, 1999, 286(5439): 509-512.
Opinion Leader Identification and Analysis in a Bitcoin Trading P2P Website
LI Feng WANG Yan feng HU Jin ya
(School of Business Administration, South China University of Technology, Guangzhou 510640, Guangdong, China)
Abstract: Online users of P2P trading website usually were rated by others as being positive or negative. These made attitudes of opinion leaders more important, and identification of opinion leaders more complicated. This paper fetched rating records among users from a Bitcoin trading P2P website. Based on these data, a directed weighted signed network was constructed. Users were classified into several classes according to ratings they had sent and received. Moreover, statistics description of these users was given, along with data through social network analysis. Then, the correlation coefficients between features of users were calculated. Based on data analysis, strong positive correlation coefficients between several features of users were uncovered. More important, in degree and out degree of nodes (users in the network) were verified to recognize opinion leaders.
Keywords: opinion leader; Bitcoin trading website; peer to peer rating; social network analysis; weighted signed network