APP下载

学术社交网络科研用户类型划分及其行为差异研究*

2022-04-28严炜炜郑梓阳

情报杂志 2022年4期
关键词:活跃均值数量

严炜炜 温 馨 郑梓阳

(武汉大学信息管理学院 武汉 430072)

0 引 言

学术社交网络是专门面向科研人员和研究机构的社交媒介[1],提供发现研究成果的替代手段,变革以学术会议、学术互访为代表的传统学术交流模式[2]。学术资源易获性、学术互动及时性、科研合作跨越性[3],构成了学术社交网络的基本特征,也对学术社交网络用户行为理解与平台治理提出了新的要求。针对学术社交网络用户行为规律的揭示,不仅有助于归纳用户群体对学术社交网络的认可度和利用特征,也对学术社交网络平台功能优化具有促进作用。

图1 研究思路流程

当前社交网络用户行为的研究视角主要体现为两方面:一是利用相关理论研究各类因素、环境等对在线社交网络用户的采纳、拒绝、持续使用等行为的影响;二是利用相关统计学方法,围绕用户个体使用行为和群体互动行为等,研究用户使用社交网络服务和应用所表现出的特征与规律[4]。前者在面向学术社交网络的研究中已得到诸多运用,研究发现学术社交网络中科研用户之间目标和价值观的共同性,是平台内创建的知识对科研用户的研究产出和科学实践产生影响的必要前提[5];语言及相关社会规范则可能会影响国际范围内科研人员建立联系[6];而我国科研用户对以Research Gate(RG)为代表的学术社交网络已具有一定的认知度,其使用需求与使用动机呈现重获取、轻交互的现象[7]。后者研究则更多聚焦于Twitter、新浪微博等一般性社交网络平台,在进行用户行为规律探究的同时,也分析了基于平台相关测度指标来度量用户影响力的可行性[8],并借助对用户数据的长期跟踪以揭示用户行为的时序性变化,进而从用户特征[9]、发布行为[10]、有向关系拓扑[11]等方面开展研究。尽管部分研究也关注了学术社交网络中的用户行为特征,如研究指出不同职位的学术社交网络用户之间存在行为和群体特征的差异,教职工与博士后研究人员相比于独立研究人员在平台中呈现的社交关系水平偏低[12],且不同国家的科研人员表现也有明显差异[13],但当前多数研究对于用户类型主要以学科、地区等背景基础信息作为粗糙的分类依据,需进一步结合相关理论模型得到具有平台特色的用户类型划分规则,以此突出不同类型用户间的行为差异。此外,对于针对学术社交网络用户行为时序变化规律的跟踪研究仍较为匮乏,尤其是目前国内科研用户对学术社交网络接受程度及利用行为发展变化规律的揭示还较为有限。

因此,本文以学术社交网络中科研用户为研究对象,结合时间维度跟踪并归纳其行为及影响力的变化情况,定量揭示不同类型用户群体的核心特点,拓宽用户利用学术社交网络行为规律的研究视角,为优化平台面向用户的学术价值挖掘和学术功能结构提供支撑依据,进而营造良好的平台学术交互与合作氛围,以此更好地帮助科研用户长时且有效地利用学术社交网络开展学术交流、维系学术关系、获得学术声誉。

1 研究设计

1.1理论基础及研究思路AARRR模型借助数据分析实现平台运营、指标体系与用户转化等方面的相互契合,有助于平台依照用户生命周期阶段选取具有针对性的运营优化策略,已获得普遍认可并应用于诸多在线平台运营体系之中。考虑到学术社交网络亦是帮助科研用户建立社会网络和促进以研究为导向的各种活动的一种在线服务、工具或平台[14],其运营流程与AARRR模型中的各环节具有共通之处,即平台内的所有用户并非长期处于静止状态,平台运营中的全过程将涉及到用户的新增、活跃、留存和流失等多种形态及其行为变化。因此本文基于AARRR模型理论,结合学术社交网络在变现等方面相对弱化的运作特征,依照学术社交网络相关服务功能指标,构建具有平台服务特性的用户分类规则,如图1所示。研究首先以学术社交网络中的科研用户为研究对象,获取其在不同年份下在RG中公开的用户数据,构建用户类型划分规则,经有效性检验后分别从基础信息、利用行为、社交关系和影响力4个方面比较不同类型用户在学术社交网络中的表现差异,最后总结研究的主要结论,面向平台提出学术社交网络科研用户的激励措施。

1.2数据的获取与处理在众多学术社交网络中,RG具有较完备的交互性功能服务,并且以其独特的打分制,能够激励用户通过发布研究成果、提问与回答等手段提高分数,以此增强用户黏性,相关计量指标可直观显示用户开展学术交流的情况,归纳用户的行为及影响力变化规律。因此RG等学术社交网络已成为科研工作者获取学术资源、进行知识交流的重要平台,正逐渐引起科研用户的重视。由于科研机构聚集了不同领域众多科研人员,同时中国科学院(中科院)在学术社交网络中亦具有可观的科研用户数量。所以本文以中科院作为科研用户的来源机构,获取与处理2018年和2020年其在RG中公开的用户数据,进而开展用户行为及其影响力的时序分析。

为获取数据样本,首先从中科院官网中获取所有研究单位名单,将其官方提供的英文名称作为关键词在RG中检索得到该研究单位页面URL。考虑到部分研究单位随时间可能出现新增、撤销和更名等情况,本文仅保留在2年间未发生变化的88所研究单位。其次,从研究单位的RG主页可获取该研究单位下所有科研用户个人主页的URL,进一步得到用户在统计期共有指标下的用户信息,包括个人的标识信息(URL、账号ID)、基础信息(名字、学位、所属机构、学科)、利用情况(科研成果数量、项目数量、问题数量、回答数量)、社交关系(合作者、关注者、被关注者)、影响力信息(浏览量、推荐量、被引量、H指数、RG score)。数据样本的获取时间为各年度的11月28日至12月18日,在剔除页面失效等用户数据后,最终得到12 756条2018年用户信息和16 051条2020年用户信息。

1.3用户类型划分规则为了更好概括科研用户在学术社交网络中的表现,本文依照图2中的分类规则将科研用户划分为新增用户、活跃用户、留存用户和流失用户4种用户类型。新增用户指相比于2018年出现的新账号ID对应的2020年用户;流失用户则指相比于2020年缺失的账号ID对应的2018年用户。

对于2018年和2020年均拥有账号ID的条件下,考虑到RG score是对用户当前分享或添加到个人资料中任何贡献(例如科研成果、项目、问题和答案)的综合反映和衡量,同时本文聚焦于科研用户在采集时间段内所开展的主动信息更新行为,包括个人信息的更新(姓名、学位、所属机构、学科标签列表)、数值信息的改变(科研成果数量、项目数量、问题数量、回答数量)和社交关系的改变(关注数量),故将至少发生1次信息更新且RG score大于0的用户划分为活跃用户,其余情况则归为留存用户。活跃用户表现为该用户能够主动更新个人信息且其科研成果和交互情况能够得到平台有效的衡量,反之留存用户表现为该用户2年内持有平台账号但未发生有效的信息更新。

图2 科研用户类型分类规则

在此规则下最终得到4390位新增用户,7250位活跃用户,4411位留存用户和1095位流失用户,其中活跃用户和留存用户均拥有2018年和2020年的用户数据,而新增用户、流失用户仅分别拥有2020年和2018年的用户数据,以此将不同类型科研用户及其所在年份标记为6个组别,分别为新增用户、活跃用户(2018)、活跃用户(2020)、留存用户(2018)、留存用户(2020)、流失用户。

1.4显著性差异检验为了检测不同用户类型间在各个指标下是否有显著差异,表1对于不同组别进行显著性差异检验,探讨同一类型不同年份间的科研用户行为的差异性,以此显现本文的分组规则是否有效。Kruskal-Wallis检验结果显示,在95%置信水平下,6个用户类型组别间在各个指标下都存在明显的显著性差异。进一步针对同一类型不同年份的组间检验,本文利用面向在样本受限和总体分布未知的情形下的两个独立样本之间的差异比较的Mann-Whitney检验方法[15]。结果显示在95%置信水平下,活跃用户的2018年和2020年在各个指标下都具有显著性差异,两年间各个指标的变化较为明显,但相较于其他指标,问答方面的显著性水平偏低。留存用户的2018年和2020年仅在被关注数量(p=0.000)、浏览量(p=0.000)、推荐量(p=0.000)和被引量(p=0.004)4个指标下都具有显著性差异,而其余需要用户主动更新的信息(如上传科研成果、分享问答、关注其他用户等方面)并没有表现显著,可见相较于活跃用户,留存用户在主动更新个人信息方面并没有显现出较为明显的差异,印证了本文分组规则的有效性。

表1 不同用户组别的显著性差异检验

2 不同用户类型差异比较

2.1用户基础信息比较在用户类型的界定规则中,活跃用户相比于其他3类用户在信息更新方面表现得更为活跃,因此本文首先单独讨论活跃用户在用户身份、所属机构、学科背景等用户基础信息方面的变动情况。如表2所示,学科信息(16.924%)和学位信息(11.917%)是科研机构活跃用户最为主要的2种基础信息变更形式,而名字(1.834%)和机构(0.138%)信息在2年内变更情况不多,仅有10位活跃用户发生了机构信息更改,相关研究也指出对于一定规模的科研机构来说,短期内人员除了少量的退休、调出以及新引进之外,会大体保持稳定[16]。名字方面的变更方式表现为细节上的规范化,如姓名格式顺序(30.075%)、大小写变换(8.271%)等,使之更加贴合英文姓名表述方式,便于开展国际化学术交流。学位信息发生变更的活跃用户中更多表现于添加学位信息(59.375%),其次为更改(40.046%),而删除个人学位信息的活跃用户(0.579%)相对较少。此外,RG允许用户根据近期的研究选取合适的学科标签并展示于个人页面,而发生学科信息变更的活跃用户中,超过七成的用户表现为标签数量变少(71.883%),这可能源于RG个人主页结构的变化调整,2018年的学科信息仅展示于需要手动点击跳转的子页面,而在2020年该信息位于个人首页的中间板块,用户在标记个人学科时显现得更加谨慎。

表2 活跃用户的基础信息(名字、学位、机构和学科)变更情况

表3分别统计不同类型用户在各年份上出现频次排名前十的学科标签,可见2018年和2020年所有中科院用户的学科标签以材料、化学、生态、人工智能等领域为主,这反映出当前活跃于RG的中科院用户的学科背景。其中,“材料化学(Materials Chemistry)”“生态学(Ecology)”和“分子生物学(Molecular Biology)”3个学科标签的出现频次稳居2018年和2020年样本整体以及活跃用户的前3位。研究单位层面,化学研究所(活跃用户数=370,活跃率=52.86%)、生态环境研究中心(活跃用户数=281,活跃率=51.28%)、广州地球化学研究所(活跃用户数=193,活跃率=56.10%)等机构较高的活跃率印证了上述活跃用户的学科背景。

表3 不同年份下所有类型用户的学科Top10

留存用户前后两年出现频次排名前十的学科及其相对顺序没有太大的改变,出现频繁的“人工智能(Artificial Intelligence)”“算法(Algorithms)”“人工神经网络(Artificial Neural Network)”等学科标签显现出留存用户更有可能来源于计算机方面的领域,留存率较高的软件研究所(留存用户数=94,留存率=41.78%)、计算技术研究所(留存用户数=130,留存率=39.51%)、信息工程研究所(留存用户数=197,留存率=39.17%)等计算机领域的研究单位也印证了这一点。新增用户的学科背景与活跃用户及留存用户均存在相似与差异之处,即除了“生态学(Ecology)”“材料化学(Materials Chemistry)”“分子生物学(Molecular Biology)”3项三者共有的标签以外,“人工智能(Artificial Intelligence)”“人工神经网络(Artificial Neural Network)”和“地质学(Geology)”“地球化学(Geochemistry)”也曾分别出现于留存用户与活跃用户的学科标签列表中,新增用户还出现了“环境科学(Environmental Science)”“地理学(Geography)”“遥感(Remote Sensing)”等标签。这与部分机构较高的新增率可能存在联系,例如地理科学与资源研究所(新增用户数=348,新增率=158.18%)、信息工程研究所(新增用户数=227,新增率=80.21%)、深圳先进技术研究院(新增用户数=88,新增率=77.19%)等研究单位逐渐重视学术社交网络的使用。

2.2用户利用行为比较对于学术社交网络学术资源共享及问答交流功能的利用情况,不同类型科研用户存在一定的相似性。表4中各个类型用户前后两年呈现出相似的利用差异,即各类型用户在其各年的数据中均显现出科研成果数量远大于项目数量,同时回答数量也大于问题数量,这表明科研用户更加偏好分享科研成果和回答其他用户的提问。对于2018年的用户利用数据,无论是样本整体还是活跃用户、留存用户在2020年时各项指标的均值都出现上涨。

不同类型科研用户在学术社交网络的利用水平不尽相同。无论是学术资源的共享还是问答交流方面,活跃用户均高于对应年份的整体平均水平,其中7 250位活跃用户中有1 214位(16.745%)用户的项目数量出现增加,6195位(85.448%)用户的科研成果数量上升,有110位(1.517%)用户的问题数量呈现上涨,163位(2.248%)用户的回答数量增加,活跃用户更加偏向于学术资源分享的积极性,在问答方面的主动参与程度还相对偏低。留存用户2年前后相较于其他类型的用户在4项指标上均为最低水平,这也印证了留存用户在利用学术社交网络开展学术交流的低活跃性。相较于项目和科研成果等学术资源的共享,新增用户相对于2020年整体偏高的问题数量(0.127)和回答数量(0.533)显现出新进的用户可能对学术社交网络问答交流功能的关注。而流失用户在项目数量均值(0.700)、问题数量均值(0.292)和回答数量均值(0.735)均呈现出所在年份的最高值,这可能归因于各个类型的样本数量并不一致,数量较少的流失用户易受到部分极值变动的影响。

表4 不同年份下所有类型用户的利用行为比较

2.3用户社交关系比较从整体的关注数量、被关注数量和合作者数量的分布情况来看,科研用户的整体水平在前后两年均呈现出“关注数量均值(2018年=33.784,2020年=35.293)>被关注数量均值(2018年=33.434,2020年=35.191)>合作者数量均值(2018年=7.650,2020年=7.398)”的分布规律,表明中科院用户利用学术社交网络仍然是以跟踪其他用户学术研究为主。图3为各项指标下不同类型用户及其所在年份的箱型图,菱形方块表示该指标下对应分组的均值。相比于2018年,活跃用户的关注者、被关注者以及合作者在2020年均出现明显的上升。根据划分规则统计得到7 250位活跃用户中有4 856位用户(66.979%)的关系数量发生变动,其中关注数量增加的用户为3 630位(50.069%),关注数量减少的用户为1226(16.910%),显现出在学术社交网络的关系中偏向于“正向的活跃”。而留存用户、新增用户两年均为0的合作者数量中位数可能与其偏低的科研成果上传数量有关。并且新增用户的关注数量均值(33.271)远大于其合作者数量均值(5.347)与被关注数量均值(17.805),其被关注数量较大的标准差(60.207)和更多的极值点表明,虽然在该机构或平台内展现时间不足2年,但是不少新增用户正在积极拓展个人的社交网络,并且逐渐引起其他用户的关注。

图3 不同年份下所有类型用户的社交关系

此外,本文进一步统计中科院用户的关注者、被关注者以及合作者的所属机构,发现中科院仍然是各类用户合作、关注与被关注的第一机构,国内的清华大学、北京大学、上海交通大学等高校也是各个类型用户较为重要的交流与合作机构,这显现出无论用户的活跃程度如何,学术社交网络中科研用户之间的交互关系以科研机构内部为主,科研机构外的交互对象以双一流高校为主,企业等类型的机构互动较少。

2.4用户影响力比较RG提供的浏览量、推荐量和被引量3项原始指标以及H指数复合量化指标来评价科研用户在不同方面的影响力。如表5所示,活跃用户、留存用户以及整体上都出现了不同程度的上涨,活跃用户在浏览量、推荐量、被引量和H指数均高于整体水平,这可能与前文其在利用和交互关系中表现出较高的积极性有关系,同样留存用户的影响力也与其低水平的利用与交互关系可能存在联系。新增用户由于缺乏平台的积累,在浏览量、推荐量、被引量和H指数均低于整体水平,流失用户在浏览量、推荐量、H指数上高于整体水平但被引量方面相对偏低。

表5 不同年份下所有类型用户的影响力比较

区别于上述4项影响力指标,RG score是综合得出的用户评价指标,可较全面地衡量科研用户在平台的参与效果与整体表现。图4展示科研用户及其关注者、被关注者和合作者的RG score均值。从用户个人来看,RG score与H指数的均值排序情况较为相似,即2018年均表现为活跃用户>流失用户>整体水平>留存用户,2020年呈现出活跃用户>整体水平>新增用户>留存用户,这与前述的交互利用行为情况相一致,显现出活跃用户在学术社交网络中具有高影响力,留存用户的影响力仍与其利用水平一样相对偏低,流失用户虽然高于当年的整体水平但也只是昙花一现,新增用户的影响力水平可能因其平台的熟悉度不足或科研成果分享意愿偏低而仍处于较低水平。对比个人及其关注者、被关注者和合作者的RG score均值,留存用户个人在2018年和2020年的RG score均值远低于其关注者、被关注者和合作者,对应变化差值也低于活跃用户;新增用户的4项RG score均值均低于2020年整体平均水平,而流失用户的关注与被关注高于2018年整体平均水平。相似的是,各个类型的科研用户表现出关注者的RG score均值大于被关注者,并且用户个人的RG score均值低于合作者,这表明中科院用户持续关注学术社交网络中影响力较高的用户,同时也受到其他用户的关注。

图4 用户及其关注者、被关注者和合作者RG score均值分布

3 结 语

本文为探究学术社交网络中科研用户基于时间维度的行为及影响力的变化规律,首先梳理相关研究内容及视角,引入AARRR模型的主要思想,并针对平台运营特色及相关指标构建具有学术社交网络服务特性的用户分类规则,借助统计分析和比较验证等方法突出不同类型科研用户行为特征。区别于非学术社交网络用户行为研究,本文一方面关注于不同类型用户在非正式学术交流背景下的自主性和行为表现,另一方面结合理论思想并跟踪实际指标变化以更为有效地提炼学术社交网络科研用户行为时序变化规律,丰富面向学术社交网络的用户行为理论。具体而言,本文依据分类规则将科研用户细分为新增用户、活跃用户、留存用户和流失用户4类用户群体,研究发现相比于2018年,中科院用户在2020年的各项利用指标上均呈现出不同程度的上涨,同样在学术社交网络中的交互关系显现出“关注数量均值>被关注数量均值>合作者数量均值”和“以机构内部交流为主”的分布规律,外部的主要联系机构为国内重点高校,同时更偏向于关注其他高影响力的用户,自身在学术社交网络中的影响力有待提升。

以中科院为代表的科研用户在学术社交网络中2年内出现了不同的行为表现。从不同类型用户来看:a.新增用户,相比于学术资源共享可能更加偏好于问答交流形式,积极拓展个人的社交网络的同时也逐渐引起其他用户的关注,个人的影响力处于活跃用户与留存用户之间;b.活跃用户,教育背景的个人信息是其主要的变更内容,学科以材料、生态、生物学领域为主,各个指标2年间的变化明显,特别是学术资源分享、关注关系方面的积极性更高,在学术社交网络中具有较高的影响力,但问答方面前后2年变化的显著性水平偏低;c.留存用户,主要来源于计算机方面的领域;2年内主动更新信息、分享问答、关注其他用户等方面的积极性低,影响力与其相对偏低的利用水平保持一致,个人的影响力也远低于其关注者、被关注者和合作者;d.流失用户,由于样本数量少易受到极值的影响,在分享学术资源、问答交流、关注关系等指标下的均值都偏高,个人影响力同样相比于其他3类用户偏高,被引情况相对于2018年整体水平偏低。4类用户对于学术社交网络各项功能的利用偏好不一,但相似的地方在于问答功能并未得到大部分科研用户的积极利用,并且相比于关注者、被关注者和合作者,个人的影响力情况不够理想。这既揭示了我国科研用户对国际化学术社交平台的利用局限性,影响力还有待进一步提升,也意味着平台还须结合不同类型的用户及学科特征来完善平台措施,鼓励和带动新增用户和留存用户,减少用户的流失,实现对于活跃用户的正向激励,营造平台内科学交流与合作的学术氛围。

具体对于平台方而言,针对新增用户应着重改进其偏好的问答交流板块,如通过丰富问答交互形式来促使用户交流更为沉浸式、通过完善评价指标来激励用户参与讨论、通过完善内容推荐机制来帮助获取精准且优质的学术信息,以此引导和强化新增用户对于平台专业性定位的认知。针对活跃用户和留存用户应完善平台的学术资源分享与推荐机制,如通过增设学科板块及热点主题研讨等方式激活用户保持长期活跃与新鲜感。并且考虑到活跃用户与其他用户的交互关系较为重视,而留存用户对于该服务却积极性不高,因此除了内容资源的推荐优化以外还进一步与用户社交关系相结合来强化与拓展用户间的社交关系链。此外尽管对于大多数平台来说,用户的自然流失不可避免,但平台方也应采取相应的措施,特别是对于高质量用户制定流失监测策略,关注其使用反馈及核心需求来解决平台缺陷,降低用户流失。

本文的不足之处在于研究视角还仅限于平台指标的数值变动,未考虑到科研用户分享内容、图片等非结构化数据的前后比较,且相关结论有待针对不同机构用户中进行验证,后续研究可尝试拓展本研究的分析视角。此外,未来研究还可进一步探讨不同类型用户关系网络的变动模式,丰富并完善用户利用学术社交网络行为分析及其影响力变化的研究内容。

猜你喜欢

活跃均值数量
活跃在抗洪救灾一线的巾帼身影
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
统一数量再比较
浅谈均值不等式的应用
这些活跃在INS的时髦萌娃,你Follow了吗?
均值不等式的小应用
角:开启位置与数量关系的探索
头发的数量
数据分析