Altmetrics热点论文的利益相关者信息交互模式研究*
2022-04-28刘晓娟王晨琳吴鑫梅
刘晓娟 王晨琳 吴鑫梅
(北京师范大学 政府管理学院 北京 100875)
0 引 言
社交媒体是允许用户进行内容创造、分享和讨论的交互式平台,为学术信息交流和学术成果传播提供了有效媒介[1]。自2010年提出Altmetrics以来,学界便开始基于社交媒体平台探索学术文献的社会影响力,特别是围绕Altmetric.com每年发布的最受关注TOP100文章(通常称为Altmetrics热点论文[2])展开研究。社交媒体中提及、转发、提醒、关注等功能使得相关用户围绕这些热点论文形成了丰富的交互行为,构成一个包含了用户、论文、UGC数据以及多种关系的信息交互网络,推动热点论文在社交媒体上的传播扩散,提高其社会影响力。
目前学界已陆续从Altmetrics聚合器提供的数据的可用性[3]、用户动机[4]等视角探索数据的产生机制和指标的实际价值,力求打破Altmetrics的“黑箱”状态。然而已有研究多局限于静态角度,而社交媒体平台的信息流动过程是动态的且内容丰富,蕴含着指标数值的来龙去脉,社会网络分析可对这一过程进行抽象,使得网络特征和规律被更直观地呈现。通过梳理文献发现,当前研究主要围绕社会媒体用户的交互特征和学科领域的网络结构进行分析。
部分学者通过社会网络分析识别用户在信息交互网络中承担的角色和行为特点,如Hoffmann等[5]使用特征向量中心性对用户进行排名,研究管理学领域的核心用户网络;Lutz等[6]对ResearchGate粉丝和好友网络进行分析,研究学者资历与出版物影响力、社交媒体影响力的相关性,以及它们对网络中心性的作用;Jordan等[7]发现Academia.edu上科研用户通过与他人的互动进而关注了一些陌生人;Said等[8]基于2015年Altmetrics热点论文的Twitter数据构建了用户转发和@网络,发现知名期刊和领域知名学者通常就是高影响力用户。
某个/多个学科领域的信息交互网络的内外部结构特点也是学者关注的焦点,如Kim等[9]构建了Twitter中天体物理学家的社交网络并进行分析,发现该群体倾向于与学术型用户进行交流,交流对象包括同事、科学传播者、其他研究人员以及教育工作者,但通常不会@彼此。Imran等[10]使用2015年的Altmetrics数据研究了Twitter转发和@网络,发现艺术人文、经济和计算机等领域用户容易形成小团体,通常只在小圈子里交流观点;而工程、环境和医学等领域用户的学科交叉性很高,活跃在多个社群。
已有研究中的网络关系主要包括用户间关注、@和转发等行为;节点则通常包括所有用户,或仅对用户的学科类型进行划分,缺少对重点群体的关注,比如作者、出版方等与论文存在直接利益关系的用户,即“Altmetrics利益相关者”[11]。利益相关者存在特殊的提及动机,他们的交互行为可能会对Altmetrics指标数值产生影响,因此围绕利益相关者衍生而成的社会网络更具研究价值。
本文聚焦于Altmetrics热点论文的利益相关者,对该群体在Twitter上的信息交互模式和关系网络结构进行研究,分析Altmetrics数据背后的社交媒体网络,从而还原学术成果在社交媒体上的信息传播方向和形式,进一步揭示Altmetrics指标的数据累积过程,以期对学术成果传播的特点和机制有更深层次的把握,为学术评价提供更丰富的数据与研究视角。本文试图解决以下问题:论文在Twitter中的传播受哪些类型用户的影响?这些用户分别承担何种角色?利益相关者与其他类型用户如何交互?关系强度如何?基于不同性质的用户节点可以划分成哪些子网络?这些子网络的内部用户结构、交互模式有何特征?子网络间如何进行信息传播?
1 研究设计
1.1数据采集Twitter是学术成果传播最活跃的社交媒体[12]。对Twitter中的Altmetrics数据进行分析更具代表性[13],因此本文利用python获取2019年热点论文的Twitter提及数据共188 653条(获取时间2020-01-19)。采用相似度识别算法(80%以上)加以人工监督,获取用户昵称、用户名、Twitter认证以及个人简介等信息,并与论文的直接利益相关者(即作者和出版方)进行匹配,识别出该群体发布的推文共1 032条,其中包含@和RT@的578条推文,覆盖44篇论文,9个学科领域。
1.2研究方法社会网络分析法可以揭示Altmetrics计数过程,相比于对指标数据进行单一维度的描述性统计,对Altmetrics数据进行网络研究的结构更立体、层次更多样。因此,本研究运用社会网络分析方法,研究Altmetrics热点论文在Twitter上利益相关者群体的信息交互模式。具体来说,一方面对个体间的交互模式进行分析,识别不同用户类型在网络中承担的角色和用户之间信息流动的基本路径,包括交互对象、交互形式、交互强度和信息流向;另一方面对群体间的交互模式进行探索,研究不同性质节点所形成的子网络内部结构特征和子网络间的关联方式,从而进一步探知利益相关者信息交互行为背后代表的文献信息的流动规律,挖掘Altmetrics数据实际价值,分析论文的真实社会影响力。
1.3信息交互网络构建
1.3.1 基础结构 在基于Twitter的Altmetrics利益相关者信息交互网络中,节点主要包括用户(即Twitter账户)、学术成果(如论文、专利、图书等)和相应的UGC数据(用户产生内容,如推文、评论等);用户间关系主要为关注和被关注,用户-UGC间关系为发布、转发、评论等,用户-学术成果间为利益相关、兴趣相关等,UGC-学术成果间关系主要为提及。
从节点层面,学术成果生产者(即作者)和发布者(即出版方,包括期刊和出版商)与学术成果之间存在最直接的利益关系,前者有个人学术影响力的评价需求,后者有成果利用追踪的评价需求[14]。他们在社交媒体平台提及学术成果的动机最为复杂。本文所述的“利益相关者”仅包括作者和出版方,以此为基础节点向其他类型的社交媒体用户扩展和辐射,非(直接)利益相关用户节点包括学术同行、研究机构、新闻媒体、政府部门、社会组织和其他,这两大类主体共同构成利益相关者网络的用户节点。
表1Altmetrics利益相关者信息交互网络中用户类型
从关系层面,提醒他人关注和转发是社交媒体用户间的重要关系。在UGC中提醒他人关注主要为了向特定用户发布与之相关的信息[15],促进原UGC的宣传和传播以引导其他用户查看[16]。Twitter中的@和RT@分别对应提醒他人关注和转发,利益相关者发布或转发了提及自身学术成果的推文,并可@非利益相关用户,后者则可对该推文进行转发、评论等操作,共同形成Altmetrics利益相关者信息交互网络(图1),实现社交平台上的学术成果信息传播。
图1Altmetrics利益相关者信息交互网络基础结构示意图
表2Altmetrics利益相关者信息交互网络抽象图(示例)
1.3.2 度量指标 结合研究问题和已有文献,将网络度量指标分为内容、结构和节点三个维度(表3),分析不同用户的网络角色、交互对象、强度以及子网络特征。
表3Altmetrics利益相关者信息交互网络的度量指标及含义
2 分析与讨论
2.1网络整体结构基于样本数据构建利益相关者信息交互网络,采用Gephi对其进行分析。从推文内容特征维度,该网络的分享程度为44%,推荐程度为22.63%,传播程度为33.37%。从推文整体结构维度,对包含@和RT@的数据进行处理后得到由426个节点以及470条边组成的有向图。网络直径=10,平均度=1.108,平均路径长度=3.028,网络直径=10,图密度(网络密度)=0.03,平均聚类系数=0.027,弱连通分量=27,强连通分量=402,模块化指数=0.855(37个社区)。
从图密度值和平均聚类系数可看出,该网络相对稀疏,这是因为样本数据涉及了多种学科领域,较大的学科跨度导致交互强度较低。但稀疏网络中又存在一定的聚集效应,主要由跨学科利益相关者与非利益相关用户的联系形成,比如《Nature》推送了五篇论文的相关信息,这些论文来自心理学、社会学等领域,可将不同学科的用户节点联系起来。另一方面,从强连通分量数、模块化指数、平均路径长度和平均度等指标可看出,该网络具有典型的“小世界”、高聚集的特点,基于利益相关者形成不同模式的子网络。
2.2个体交互模式分析
2.2.1 用户角色识别 本文通过中心性来度量节点的重要性或影响力,识别用户在网络中承担的角色。按照用户类型划分,对所有节点的指标取均值,分析结果见表4。
表4 各类型用户中心性分析
a.核心用户。作者和出版方作为基础节点,点度中心性高于非利益相关用户,反映出该网络中利益相关者较注重与非利益相关用户的交流和互动。除作者和出版方外,学术同行的入度最高,研究机构的出度最高,分别为0.78和1.27,反映二者对该网络的信息传播具有重要作用。此外,节点的接近中心性越大,表明该节点凭借其所拥有的信息资源、权力等要素与其他节点的联系越紧密,在网络中越处于中心位置。出版方的接近中心性高达139,奠定了其在网络中的绝对核心地位,随后是作者(57),其余类型用户的接近中心性均未超过1,依次为学术同行、研究机构和新闻媒体,而社会组织和政府部门的接近中心性为0。
b.桥梁用户。用户节点中介中心性越高,则该节点对其他节点的控制能力和影响程度越强,在网络中处于信息传播的枢纽位置,称为桥梁用户。从表3可明显看出,政府部门的中介中心性最高(0.11),其次为新闻媒体(0.07),作者和出版方的中介中心性却不高。因此政府部门和新闻媒体在该网络中占据着相对重要的连接性位置,对网络中各节点的交互起到控制和促进作用,各类用户间的交流在较大程度上或直接或间接地依赖于这两类用户。
2.2.2 基本路径统计 利益相关者与各类用户之间共存在25种交互方式,代表不同的信息流路径。由表5可知,利益相关者之间的互动强度较高。一方面,同类利益相关者之间存在互相@和转发的关系,且关系强度(边权和)均大于等于中值(17),信息流形成自环。另一方面,非同类利益相关者之间也会互相@和转发,关系强度分别为:作者@出版方(34),作者RT@出版方(28),出版方@作者(22)和出版方RT@作者(5),可见作者对出版方的关注程度比出版方对作者的关注程度更高。作者与非利益相关用户的交互明显比出版方的种类更多,频率也更高。
除了作者和出版方,学术同行是最重要的信息提供者,作为同领域的学者,对论文内容和价值的见解相对非利益相关用户更全面,其推文主要对论文的过程和结论进行概述,比如@M_Stamatakis在推文中提及论文结论“运动与抗高血压药物可降低收缩压……”;此外,学术同行还会通过推文表达对论文及作者的认可和支持,比如@MiettinenTopi在推文中提到“我们很高兴看到@MichelAMarechal提出的论文……”,作者和出版方都常从学术同行处转发提及了自己学术成果的推文。研究机构是最重要的信息接收者,作者和出版方都倾向于在推文中@相关研究机构。新闻媒体、政府部门和社会组织也较常被作者@,属于比较重要的信息接收者,但是出版方与这些类型用户互动甚少。
表5 利益相关者与各类用户间的信息流路径统计
续表5 利益相关者与各类用户间的信息流路径统计
2.3群体交互模式分析Altmetrics利益相关者信息交互网络中存在由于个体联系紧密或同属性节点聚集而形成界线明显的小团体现象。为了进一步揭示这些子网络的内部结构,分析节点间潜在或实存的关系模式及强度,本文选择k核凝聚子群算法和基于学科属性的模块化分析算法进行分析。前者建立在个体节点的邻接性、接近度和可达性的基础上,具有相对强、直接、紧密、经常或积极的关系[24],可发掘个体在子网络中的具体定位和重要程度;后者则用于检测学科社区,侧重发现同学科用户群体之间的行为、联系和互动,个体之间无需存在直接或间接联系。
2.3.1 k核凝聚子群探索 k核凝聚子群意味着子网络中的节点都至少与该子图中k个其他节点邻接。当k=2时,共形成7个小团体,如图2所示,浅色边为@,深色边为RT@,箭头表示信息流向,边粗细代表关系强度。
图2k核凝聚子群分析(k=2)
表6对图2中的7个子群的节点数量和涉及的用户类型进行统计,可以发现,子群涉及的用户类型最多5种,最少1种;包含的节点数最多有50个,最少仅有1个节点。结合边的类型、权重以及信息流向来看,凝聚子群的构成一般包括作者和出版方两类,但这二者也可以独自形成凝聚子群,比如子群#6和子群#7分别为作者账户、出版方账户在推文中@自己,以及对自己的推文进行转发。同一子群中的利益相关者之间的联系十分紧密,但不同子群中的利益相关者的交互方式和强度存在区别,比如子群#4中作者和出版方之间既有@也有转发,而子群#3中的作者-出版方仅有转发关系;子群#2中的作者间转发强度比@的强度更高,而子群#1作者间转发强度更低。子群#1、#2、#5的用户类型较为丰富,研究机构的推文在子群#1和#5中常被作者@和被出版方转发,在子群#2中被多位作者转发;学术同行在子群#1和#2中与利益相关者的关系均是转发;新闻媒体在子群#1中被三位作者@,体现了作者们希望自己的论文能够通过媒体的宣传进一步扩散。总而言之,不同凝聚子群中的用户节点数量、类型以及交互对象、强度等特征都存在一定的差异,除了利益相关者之外,研究机构、学术同行和新闻媒体等非利益相关用户也在各个凝聚子群中发挥较为关键的信息流通作用。
表6 凝聚子群内部节点分析
2.3.2 学科社区检测 社区检测揭示了异构网络中不同性质、类型的节点形成的子网络情况[25],本研究基于模块化指标进行社区检测,共得到37个社区,最终呈现节点覆盖率在4%以上的8个主要社区,为进一步探索社区间关系的形成原因和社区内部的学科结构,在Gephi中呈现社区节点的学科属性(图3左)。有如下发现:
a.从医药健康学社区#3、#7、#9和#29的联系模式可以看出,同类学科存在“小团体”的现象,这些学术小团体构成了不同的社区,这些社区主要通过同学科“作者-出版方-作者”或者“出版方-作者-出版方”的结构形成跨社区联系,本质上是仍是同领域的内部交流,但也可能存在类似社区#6的孤岛型社区。
b.学科社区的内部规范、惯例和社会分享的观点见解等情境对社区信息的传播模式存在影响。不同学科社区内部结构有所区别。比如环境学的大型社区#23由核心作者主导;而医药健康学的大型社区#7则主要由出版方主导。即使是同类学科,不同社区的用户类型构成和行为模式也存在差异。比如社区#7有明显的核心出版方和核心作者,存在@和RT两种直接交互方式;而社区#3和#9没有明显的核心用户,关系强度也不高,节点的重要性趋同;社区#6和#29的用户则都紧密围绕在核心作者周围,网络呈现向外辐射状,其中社区#6主要为@关系,而社区#29主要为转发关系。
c.作为社交媒体上的虚拟社区,学科社区除了上述由单一学科的用户形成的社区,还存在由多学科用户共同组成的社区。这种社区由于用户所属学科的多样性,知识结构更为丰富和复杂。比如社区#22由医药健康学和生物学两种学科构成,核心作者属于医药健康学,出版方则来自生物学;社区#5涉及的学科种类较多,核心作者属于社会学领域,核心出版方属于医药健康学,此外还包含了生物学和环境学的用户。
图3 主要学科社区分布(左)和其他学科社区分布(右)
由于地球科学、心理学、经济学、物理学、信息与计算科学的社区分布情况未在上述8个主要社区中显示,因此调整模块化指标的范围,直到九种学科完全呈现。从图3(右)可看出,医药健康学-经济学、医药健康学-心理学-地球科学、医药健康学-社会学-环境学和医药健康学-社会学-生物学进行了跨学科交流,形成了学科间的信息传播链,而信息与计算机科学、物理学这两个学科相对独立。总体而言,各学科在整体网络中的交互程度和强度较低,医药健康学与经济学、心理学、地球科学、生物学、环境学和社会学的利益相关者之间存在直接或间接联系,但呈现低耦合性,关系也并不十分紧密;而信息与计算科学、物理学则是形成相对孤立的子社区,这些学科的利益相关者通常仅在各自学科社区中进行交互,更侧重在社区内部与学术同行或研究机构的信息分享与传递。
3 结论与展望
本研究选用2019年Altmetrics热点论文在Twitter上的用户交互数据,以作者和出版方两类利益相关者为基础节点向非利益相关用户节点辐射,构建Altmetrics利益相关者信息交互网络,使用社会网络分析方法对目标用户群体的交互模式进行全分析。主要有如下发现:
a.从网络结构来看,该网络可以抽象为有向加权网络,可以从数据内容和结构两个方面、9种度量指标刻画整体结构。该网络属于稀疏型网络,但同时存在一定数量的小团体,包括37个社区,8个主要社区,7个2核凝聚子群,团体内部的交互强度较高,联系较为紧密。
b.从个体交互模式来看,在用户角色层面,作者和出版方的点度中心性和接近中心性远高于非利益相关用户,属于核心用户。但非利益相关用户也起着关键的联通作用,比如政府部门和新闻媒体的中介中心性超过作者与出版方,在网络中占据多方的信息流通要道,属于桥梁用户,影响着热点论文的扩散效果。在信息流路径层面,该网络的节点-关系组合类型多样,关系强度跨幅较大。对利益相关者与非利益相关用户间的25种交互方式进行分析,发现作者和出版方均出现自环,且前者与非利益相关用户的交互程度明显高于后者,学术同行和研究机构分别承担最重要的信息提供者和接收者的角色。
c.从群体交互模式来看,根据不同性质的用户节点可形成凝聚子群和学科社区两种形式的子网络。在不同凝聚子群中,同一类型利益相关者的交互对象偏好和强度存在差异。在不同学科社区中,内外部的网络结构受到学科分布和核心用户类型的影响。其中医药健康学与经济、心理、地球、生物、环境、社会学等领域用户之间存在直接或间接的交互关系,但强度不大;而信息与计算科学、物理学则相对孤立,倾向于学科社区内部的分享与交流。
根据上述发现,Altmetrics的研究者和使用者可参考本研究发现的网络特征,紧密围绕Altmetrics指标的应用价值对指标数据进行赋权,比如由作者和出版方两种利益相关者自推广而产生的Twitter提及量导致实际影响力水平虚高,因此可以降权;而由学术同行、研究机构等非利益相关用户产生的提及量则可以根据与利益相关者交互的关系强度适当提高权重,从而使学术评价的结果充分体现各类用户主体对于学术成果或作者的态度。除了利益相关者之外,后续研究还可关注网络水军等类型的特殊用户,将其作为基础节点进行辐射构建相应Altmetrics信息传播网络;除了@和转发外,节点关系还包括点赞、评论、关注等,对应地,关系权重可以用点赞数、评论数、粉丝量等指标进行表示。未来还可以结合社会学、心理学的理论知识,比如从用户的交互动机角度对Altmetrics的用户网络进行更深、更广的理论与实证研究,以便继续深入探索指标的形成机制,从而进一步充实Altmetrics方法体系,推动学术评价体系的发展。