SARank:一种学术社交网络用户影响力分析模型
2018-03-20顾瑞春王静宇
顾瑞春,王静宇
(内蒙古科技大学,内蒙古 包头 014010)
1 概 述
学术社交网络,是一种基于社交网络(social network services)的科研信息共享与协作平台,用户可以通过各种网络终端参与其中,进行在线交流、信息交互、技术协作等线上活动,社交网络用户可通过某种网络联系进一步将线下关系迁移到线上,形成在线虚拟社区。随着Web2.0技术和移动互联网的迅猛发展,社交网络正极大地改变着人们获取信息和使用互联网的方式,并已经逐渐成为连接现实信息社会与虚拟网络社会的重要桥梁。
社交网络发展迅猛,国内外有不少社交网络已经具有较大规模,著名的社交网站Facebook目前用户数大约为22亿,活跃用户数超过13亿,并且Facebook旗下的移动端社交平台WhatsApp的月活跃用户数已经突破10亿大关,Twitter的用户量也已经突破了6亿,国内的腾讯网也已经有近8亿用户,新浪微博用户量约为4亿,新晋社交网络Instagram用户量也已经超过4亿。
如此多的用户在进行信息交流、转发、评论的同时,也会产生大量的数据。调查显示,国内平均每人每天花在社交网络上的时间,大约为60分钟。由于社交网络具有强大的交互性和实时性,大量用户不断地创建、转发、评论相关信息时,大数据(big data)便随之产生了。全球各大社交网络中每天生成新的数据量约为2.5 EB。深度挖掘与分析这些大数据中潜在的有用信息,成为数据挖掘领域新的研究方向,社交网络中社会关系识别、社会影响力挖掘已经成为数据挖掘研究中新的热点。
社交网络的用户总会受到其他用户的影响,同时也会影响到其他用户。在传统社交网络中,利用高影响力的用户的强大的号召力来进行相应的商业推广或品牌推荐,已经成为商业广告、企划营销的重要手段。高影响力用户的在线言论、行为等网络活动,能够形成社交网络中的主流舆论导向,并可引导其粉丝推动一轮新的舆论热点。社交网络中的用户影响力分析,已经成为目前数据挖掘与大数据研究领域的新方向。
近年来,学术社交网络的兴起,逐渐吸引了众多科研与学术人员的加入,进行科研成果的在线共享、学术问题的线上研讨以及科研项目的线上协作等。如Aminer.org,SoScholar.com,Academia.edu,ResearchGate.net,ResearcherID.com等。与其他社交网络相同,学术社交网络同样能够产生大量的数据,这些数据具有更加重要的研究价值和实际意义。
学术社交网络中的用户影响力分析,是以学术社交网络中的海量数据为依据,结合用户的科研领域的相关指数,如科研人员的H指数,其发表论文的他引数量、影响因子总和,以及项目经费,获奖级别,成果转化等数据。文中结合用户的各类科研贡献在社交网络中的传播情况,如文章的引用数、转发数、好评数,以及用户的粉丝数量与粉丝级别等多元化数据,对科研人员进行综合的影响力分析,提出一种多元化的学术社交网络用户影响力分析模型—SARank,为现有的科研评价体系建立一种新的参考指标,还能够为科研管理人员提供一套可靠的评判依据。
2 用户影响力分析方法
著名的Google PageRank算法[1]是一种根据网页之间相互的超链接数量来进行网页排名的技术,该算法使用一种基于马尔可夫的随机游走思想来模拟用户浏览网页的行为。其核心思想是:某个网页被越多的优质网页所指向,则该网页的排名就越靠前。其具体计算公式如下:
(1)
其中,R表示要计算的网页的PageRank值;B表示所有指向即将计算排名页面的网页集合,即该页面的链入页面集合;N表示该页面的链出网页数;c为常数。
PageRank算法最初仅是应用在搜索引擎中,用来计算网页排名,但随后,部分学者将PageRank算法引用到社交网络中,认为PageRank算法是社交网络用户个体影响力分析的基础算法。2009年,Tunkelang[2]将PageRank算法应用到著名社交网络Twitter中的用户影响力计算中,使用粉丝的影响力来衡量个体用户的影响力,拥有高影响力粉丝的用户越多,且该粉丝关注的其他用户越少,则粉丝对该用户的影响力贡献越大。
与搜索引擎不同,社交网络中的影响力考虑的是某位用户个体,而不是一个静态页面。当然,PageRank算法并没有考虑到具体个体用户特征参数,Haveliwala等[3]在PageRank的基础上,结合社交用户个体特征因素,提出了Personalized PageRank算法。在该算法中,作者使用了用户个性化特征向量,如个体对社交网络话题的偏好程度、个体发布信息的新颖程度与敏感程度等[4]。
针对社交网络用户个性化的问题,不少学者均提出了面向不同属性的影响力分析方法,如Weng等[5]提出的TwitterRank算法,针对知名社交网站Twitter,根据账户连接结构和用户话题相似性等参数来计算个体在不同领域的影响力。
在研究PageRank算法时,研究人员发现某些网页仅仅因为存在时间较长,才获得了较多的指向入链接,反而使其PageRank值高于某些较新的页面的问题,通过分析新浪微博中用户转发行为时间间隔分布,通过转发时间间隔来确认粉丝对用户的关注度,认为关注度越高的粉丝对用户的影响力贡献越大。并认为,在同一时刻或同一事件中,粉丝将不同的关注度分配给不同的被关注用户。代表性研究有陈少钦等[6-7]提出的基于新浪微博的用户影响力分析模型WURank等。
3 学术社交网络用户排名算法
在学术领域,传统的科研人员的学术排名主要根据如下两种方式进行计算:
(1)根据科研人员成果质量来计算。如发表科研文章的数量,文章被引数量,以及由被引数量而产生的H-指数和G指数等。
(2)根据科研成果所在期刊质量来计算。如发表文章所在期刊的年度影响因子等。
但是上述评价方式均存在问题。文章引用次数与文章发表年限有关,因此很难通过他引次数将真正有影响力的文章分辨出来,而且仅统计引用数量,并不统计施引文章在引用时对该文章的评价信息。一篇文章需要经过较长时间后才会有相应的引用数量的积累;至于所谓的所在期刊的影响因子,更是至少经过1年之后,才能评定出该期刊上一年度的平均影响因子,影响因子统计时间不仅慢,而且无法通过影响因子了解该期刊具体单篇文章在相应学术领域的影响力。在2016年汤森路透出售了其知识产权和科学信息业务后,影响因子的权威性可能会在未来受到冲击。
随着Web2.0技术及社交网络的发展,Priem等[8]提出一种多元化科研人员评价体系Altmetrics[9],意为使用更多的社交网络参数来进行学术声望评判。Altmetircs认为,下一步,科研评价指标将会是综合性的多元度量,即将社交网络中的多元化元素融合到科研协作平台中,通过社交网络的相关参数,优化传统的评价指标来形成新的多元化科研绩效计量体系。自从Altmetrics提出后,得到了大量科研人员[10-13]的支持与肯定。国际上对科学研究人员的影响力评价体系已经逐渐从传统的以引用量、H-指数等固态指标为基础的评价系统转向以科研成果的使用(被下载)量、同行评议情况、引用量,以及Altmetrics量为基础的创新型综合社会化评价体系。其中Altmetrics量包含社交网络中的存储、连接、标签以及评述指标。
基于社交网络的用户影响力分析模型,国内外各大学术社交网络中针对其科研用户也推出各类影响力排名算法,由清华大学唐杰等开发的Aminer[14]研究人员社会网络,通过统计科研人员的文章数量、引用数量、H指数、A指数、G指数等信息,生成专家统计信息雷达图,并可分别通过上述指数进行专家排名。截至目前,Aminer系统已收集了2.3亿多论文信息,1.4亿份研究者信息,7.5亿论文引用关系,879万知识实体以及3万多学术会议/期刊。吸引了全球220多个国家的276万多独立IP访问。Aminer系统还集成了自动信息抽取、账号自动关联、重名排歧、专家发现以及跨语言联系等技术,该系统是目前较为先进的高水平科研人员搜索和发现平台。
目前,国际上较为著名的科研社交网络ResearchGate.net,是一个可以在线分享研究成果、学术著作以及进行讨论的社交平台。其通过一个名为RG Score的研究者评分方式对科学家进行排名,RG Score是一种通过研究人员的成果被同行在线认可程度来确定科研人员学术声誉的多元化度量方式。具体是通过如下几种方式来确定研究人员的RG Score值:
(1)学术贡献:研究人员在ResearchGate.net上发布自己的文章、讲稿、实验结果和数据等。上传数量越多,RG Score值越高。
(2)同行互动:高RG Score值的同行对某用户的评价,会直接影响该用户的RG Score值。
(3)声誉传播:个人学术声誉会在整个社交网络中传播,并随着对社交网络的贡献增加而不断提高RG Score值。
RG Score是一种通过在线同行认可并快速构建学术声誉的科研人员评价体系,现已成为学术领域评判科研人员声望的一个重要指标。
4 SARank模型
将社交网络的有关技术融入到科研共享平台中,通过社会化网络将科研信息进行在线分享,这种开放型科研共享协作平台,已经成为下一步在线科学研究的发展趋势,目前国内外较为成熟的科研社交网络平台已经不少。用于用户影响力分析的计算模型也较多,但还没有一种有机结合科研领域和社交网络相关指数进行科研用户影响力分析的计算模型。这里介绍的SARank就是一种基于科研社交网络的多元化用户影响力分析模型。
SARank的具体计算模型为:
(1)将科研用户影响力的影响因素分为学术影响参数A与社交网络影响参数S两部分。
(2)引入PageRank算法进行社交网络用户影响力分析,用于分析用户之间相互关注情况;同时引入用户间评论情况,用于不同用户间评论情况分析。
根据PageRank公式,SARank模型中的S参数定义如下:
(2)
其中,R为要计算的科研用户粉丝关注情况值;B为该用户的关注数和粉丝数(被关注数)总和;F为粉丝数;c为常数。
该模型认为拥有越多高影响力粉丝的用户,该用户的学术影响力值也就越高。λ(λ=1)为避免F过小时产生的偏差而引入的平滑因子。
(3)
其中,T表示某用户的用户评论情况值;G表示好评数;N表示差评数;C表示所有评论数。
该公式指出,其他用户对某用户的好评越多,该用户的影响力越高;差评越多,影响力越小。为避免N比较小时出现对T的干扰和过拟合问题,在分母中引入拉普拉斯平滑因子λ(λ=1)进行平滑处理。
确定社交网络影响参数为用户关注情况与评论情况之和:
S(i)=qR(i)+pT(i)
(4)
(3)将学术领域用户学术声誉计算参数定义为A。科研领域学术评价影响因子确定为基本影响参数与合作者影响参数两部分。基本影响参数引入用户的H-指数、总影响因子和所发文章总数三个参数。基本影响参数的具体公式定义为:
(5)
其中,A为用户学术影响参数值;H为H-指数;I为影响因子总和;P为作者所发文章数量。该公式表示,在用户发的论文总数相同的情况下,作者的H-指数和引用数和总影响因子越高,说明该用户的科研声望值越高。
SARank将合作者影响力参数引入到研究人员影响力值中,认为文章合作者的影响力会对用户的影响力有较大的影响。最终确定公式为:
(6)
其中,U表示合作用户的影响力值;L表示该用户在文章中的署名位置,第一作者为1,第二作者为2,以此类推。由于科研用户的文章以及合作者较多,此处仅考虑用来确定该用户H指数的文章中相关用户的合作者影响情况。H为用户i的H指数。
上述公式表示用户的学术影响因子为基本学术影响参数与合作者影响参数之和。合作者影响参数确定为该用户的H篇文章的所有合作者影响力之和,单篇文章的合作者用户为合作者的影响力值除以在文章中的署名位置。用户影响力与合作者影响力成正比,与合作者署名位置成反比。
(4)定义科研社交网络中多元化用户影响力模型SA,公式为:
SA(i)=aS(i)+bA(i)
(7)
其中,SA表示科研社交网络中用户影响力值;S表示用户社交网络影响参数值;A表示学术影响参数值;a与b表示两类影响因子权值,a+b=1。
为充分体现社交网络因子在整个SARank模型中的重要性,暂时将a与b均设置为0.5。
5 实验结果与分析
5.1 数据来源
为测试SARank的实际计算情况,又碍于目前大多学术社交网络均不公开API,因此,实验数据是通过python的爬虫框架Scrapy从ResearchGate.net,Aminer.org以及SoScholar.com抓取大量科研人员的相关数据,然后通过ETL工具集petl来进行数据处理。为保护数据的隐私性,这里隐去科研人员姓名。
进行SARank验证的主要步骤分别为:
1.获取用户数据。确定需要获得的用户数据主要包括:
(1)用户的关注与被关注数据,即该用户关注的用户数和关注该用户的用户数(粉丝数),以及每一关注和被关注用户的关注情况值R;
(2)用户的评论数据,即其他用户对该用户的好评数和差评数,以及来自互为好友用户的评论数据;
(3)用户的H指数;
(4)用户发表的文章影响因子总和;
(5)用户发表的文章总数;
(6)用户H(H指数)篇文章中合作者影响力值。
2.数据归并。将通过3个不同社交网站获取的相应数据进行归并,将同一用户的信息进行合并,去除重复信息。归并时,这里取三个不同网络数值的平均值。
3.通过SARank进行计算,得出用户SARank值。
5.2 结果分析
实验一:将用户的SARank值和PageRank值以及H指数进行比较。
PageRank值由式(2)进行计算,即通过用户的关注数和被关注数计算用户的社交网络排名值,用来表示用户的社交排名。
H指数为用户归并后的H指数平均值,用来表示用户的学术排名。
SARank值由式(7)进行计算,这里由于用户的SARank值与其粉丝以及合作者的相关值有关,因此需要一个逐渐迭代计算的过程,文中暂时仅计算2层迭代。
分别对2 000用户、5 000用户和10 000用户关于上述3个数值的平均值进行了比较,具体见表1。
由表1可以看出,与H指数和PageRank值一致,SARank值随人数变化的波动不大,具有较好的稳定性。
表1 SARank计算值与H指数及PageRank值对比
虽然将三个社交网络数据整合在一起进行计算具有一定的差异性,由于某位科研人员倾向于仅使用某一种社交网络的原因,SARank中需要获取的某些数值可能无法获得,从而导致部分计算结果出现偏差,通过取3个社交网络的SARank的平均值,能够较好地避免由于差异性带来的数值偏差。
实验二:将SARank的计算值与Researchgate.net的RGScore值进行比较。
通过在Researchgate.net获取的用户数据使用SARank模型进行计算后,与Researchgate.net的RGScore值进行比较。RGScore是Researchgate.net中科研人员的总体贡献分数,主要通过用户上传文章、解决其他用户提问等相关参数进行确定。
该实验采用获取数据中的5个用户,使用SARank模型进行计算后,与其相应的RGScore进行了对比,具体如图1所示。
图1 SARank计算值与RGScore值对比
由图1可见,SARank与RGScore值的走向基本一致。第四个用户中的SARank值偏高,是因为该用户的社交活跃性较高,S因子影响了整个SARank的值。现实中,如果某位科研用户的社交活动较广,也在一定程度上扩大了其学术影响力。因此,此类现象符合实际情况。
6 结束语
结合用户在社交网络中相关信息的不同参数,对科研用户进行综合的学术影响力分析,提出了一种多元化的学术社交网络用户影响力分析模型——SARank,为现有的科研评价体系建立一种新的参考指标,并为科研管理人员提供一套可靠的评判依据,可为
下一步研究提供有力支持。经实验测试,该模型能够得出较为稳定,并具有代表性的结果。
另外,该方法在实际应用中还有部分问题需要完善。例如,如何完善模型参数以优化计算结果;文中仅抓取了3个学术社交网络中的数据,仅将这3个网络中的数据进行融合,还不能很好地表达科研人员的相关信息;能否将同一科研人员各类其他非学术社交网络中相关信息有机整合到该模型中一并进行学术声誉度量等。这些问题还有待进一步研究。
[1] PAGE L.The PageRank citation ranking:bringing order to the web[J].Stanford Digital Libraries Working Paper,1998,9(1):1-14.
[2] DANIE T.A Twitter analog to PageRank[EB/OL].(2009-01-13).http://thenoisychannel.com/2009/01/13/a-twitter-analog-to-pagerank.
[3] HAVELIWALA T,KAMVAR S,JEH G.An analytical comparison of approaches to personalizing PageRank[R].Stanford:Stanford InfoLab,2003.
[4] 丁兆云,贾 焰,周 斌,等.社交网络影响力研究综述[J].计算机科学,2014,41(1):48-53.
[5] WENG J,LIM E P,JIANG J,et al.TwitterRank:finding topic-sensitive influential twitterers[C]//Proceedings of the third ACM international conference on Web search and data mining.New York,NY,USA:ACM,2010.
[6] 陈少钦,范 磊,李建华.MURank:社交网络用户实时影响力算法[J].信息安全与通信保密,2013(3):50-52.
[7] 陈少钦.基于PageRank的社交网络用户实时影响力研究[D].上海:上海交通大学,2013.
[8] PRIEM J,TARABORELLI D,GROTH P.Altmetrics:a manifesto[EB/OL].(2011-09-28).http://altmetrics.org/manifesto/.
[9] BHUE S,SINGH K,BISWAL S K.Altmetrics:article level metrics makes easy for user community[J].Social Science Electronic Publishing,2016,6(2):1-7.
[10] TORRESSALINAS D,CABEZASCLAVIJO A,JIMENEZCONTRERAS E.Altmetrics:new indicators for scientific communication in Web 2.0[J].Comunicar,2013,41(41):53-60.
[11] HOLBROOK J B,BARR K R,BROWN K W.Research impact:we need negative metrics too[J].Nature,2013,497(7450):439.
[12] PRIEM J.Scholarship:beyond the paper[J].Nature,2013,495(7442):437-440.
[13] LISTED N.The maze of impact metrics[J].Nature,2013,502(7471):271.
[14] 唐 杰.AMiner[EB/OL].(2006-09-06).http://aminer.org.