基于科研社交网络平台关注情况的分析与思考
2018-06-28宋钰王锦明
宋钰?王锦明
摘 要 论文从点度中心性、中间中心性以及接近中心性三个属性出发,对东南大学在ResearchGate平台上注册科研人员进行关注与被关注情况分析,使用Gephi软件以及其他工具分析并绘制有关图谱,揭示了开放科学环境下科学交流和传播的一些特点,验证了社会网络分析法在科研群体交流研究中的有效性,为开放科学环境下学术交流研究提供了新视角,从实践层面为研究人员和科研机构提供了新的分析思路。
关键词 科研社交平台 ResearchGate开放科学 社会网络分析法 东南大学
分类号 G254.97
DOI 10.16810/j.cnki.1672-514X.2018.04.010
Abstract From the point of degree centrality, betweenness centrality and harmonic closeness centrality attributes, this paper does some research on following and followers situation of enrolled researchers on the ResearchGate who are working or studying in Southeast University, and draw the chart using Gephi or some other tools. This paper shows some characteristics of information acquisition and scientific output spreading under the environment of open science, as well as verifies the effectiveness of social network analysis method, providing a new version of scientific communication in open science. It also provides a new analysis mentality to researchers and scientific institutions from practice level.
Keywords Scientific social platform. ResearchGate. Open science. Social network analysis method. Southeast University.
0 引言
随着技术的发展,如今的科学信息学术交流体系正在朝着开放的方向演进,并逐渐形成了“开放科学”(Open Science)。“开放科学”(Open Science) 是指除了最终研究的成品之外,研究人员分享其在研究过程中的每个元素,以促进研究人员之间合作的一种新型科研方式,它能够促使科研人员自发地开展新的虚拟合作研究[1]。这也是Science2.0环境下的一种新现象:各种学术交流、科研资料数据共享以及科研合作的网站和社交工具让科研人员在学术交流和合作上更加便捷,科学家之间的联系不再受到时间和空间的限制,方便了资源共享及团队协作。当前,国内外有很多学者开始关注科研社交网络,吴英梅定义科研社交是为了满足科研需要,通过运用人力和资源的学术性或研究性站点,促进科研工作者交流合作而产生的關系网,这些科研工作者往往来自不同研究方向、不同学科和不同领域[2]。李玲丽等认为科研社交网络是指科研人员能够通过建立个人网页、浏览联系人列表来支持同行交流的社交网络服务及工具[3]。笔者认为,科研社交网络是科研人员通过社交平台,与同行进行学术交流的一种社会网络服务或工具。
目前,国内外还有不少研究人员对科研社交网络进行了一定的研究。张耀坤等[4]通过文献调查法对国内外科研人员在线社交网络使用行为进行了分析研究,发现科研人员在社交网络使用行为上有着强烈的学科差异;李玲丽等人[5]以Academia.edu为主要案例,发现开放型科研社交网络中存在信息更新时滞、用户同质化以及用户活跃程度不均等问题;张素芳等[6]通过问卷调查,发现科研人员在使用科研社交网络时,更倾向于熟人之间的交流,且专业用户更青睐于系统推荐的内容;段庆锋[7]通过调研科学网,发现了不同学科之间存在着较大的在线学术社交差异;刘晓娟等[8]通过分析Mendeley的开放数据,发现了用户的学科和研究兴趣是群组形成和发展的重要影响因素,并且群组有助于构建研究合作网络;徐妹等[9]研究人员通过抽取Scholar Mate平台的相关数据进行分析,发现了科研人员的知识水平同其用户活跃度并不存在正相关性,科研人员关注情况中存在马太效应。
1 分析过程
1.1 数据源分析
ResearchGate是一个科研社交服务网站,于2008年5月上线,科研人员可以在其网站上注册,分享目前最新的研究成果、会议论文、科研数据等相关资料。目前,ResearchGate已经有超过1200万用户在使用[10],平台收录的各类出版物超过1亿。国内针对ResearchGate的相关研究,可检索到的公开文献仅有2篇。作为一个国际上较为成熟的科研社交平台,笔者认为对其进行一定的深入研究是十分必要的。
由于目前该网站未开放API数据接口,因此本研究通过自行编写网络爬虫,采集ResearchGate上东南大学机构主页上的用户数据,将采集到的数据进行清洗、整理,并进一步进行相关的统计和分析,希望能够探究以下问题。
(1) 探究ResearchGate平台上东南大学中不同学科的科研人员使用情况的关联与差别。
(2) 通过采集到的科研人员关注与被关注的实际情况,利用Gephi描绘其中存在的社会网络关系,探究其中的结构关系。
(3) 结合所绘制的社会网络关系图,找到网络中的关键节点,发现节点的一般特征。
1.2 数据采集
本研究获取的东南大学科研人员在ResearchGate平台上使用情况的相关数据截止到2017年3月20日。在ReseavchGate平台上“院系(Departments)”页面可查看东南大学相关院系注册人数,从“成员(Members)界面”通过遍历获得共计3958条主页信息,将所有主页链接作为科研人员个人信息源节点,下载并保存到文本文件中,其后使用 Excel 对其进行数据清洗,去掉其中重复的数据项,实得3830条数据。通过访问科研人员的个人主页,通过分析页面信息,抓取该科研人员的RG值、研究成果数、成果被浏览次数、成果被引用次数。通过访问科研人员的“网络(network)”子页面获得其关注人员链接,通过访问其“网络”子页面下的“被关注(followers)”子页面可以获得该科研人员被其他科研人员关注的情况。关注网络显示页面中,前25个科研人员链接是以静态网页的状态呈现的,其后的链接均以动态页面返回,因此,本文针对两种不同数据结构编写了不同代码进行解析,并存储至CSV文件中进一步处理。
1.3 数据处理与分析
在数据处理阶段,主要使用 Excel 软件对数据进行整理,将所获取的数据进行去重,析出所爬取得到的科研人员主页链接中的科研人员姓名字段,创建新的 Excel 文档,形成Gephi所需要的“Source”和“Target”格式的简化版边数据,节点数据由Gephi自动生成。
本研究采用Gephi软件对科研人员的关注情况进行分析,绘图过程中采用ForceAtlas流程进行布局,使用 Modularity Class 进行聚焦,使用相关数理统计工具进行辅助分析。由于数据过多,超出了Gephi每次分析数据的极限值,本研究将关注情况和被关注情况分别分析。
1.4 研究结果
东南大学在ResearchGate上所有使用的科研人员中,有 3119 个用户关注了其他科研人员,有 3249 个用户被其他科研人员所关注。关注其他科研人员最多的是一位名叫“Tao Du”的科研人员,关注了 487 人次;被其他科研人员关注最多的是“Jinde Cao”教授,被其他 943 人关注。
对于科研人员关注网络,共有 30 828 条边,产生了 19 262 个节点。由此可以看出,东南大学的科研人员共计关注其他机构科研人员 16 143 人次,关注其他机构人数是本机构的 5.18 倍。以关注与被关注科研人员为节点,以关注关系为边,使用Gephi绘制东南大学ResearchGate平台科研人员学术关注情况图(过滤度小于3的节点),如下图 1 所示。
图1 东南大学ResearchGate平台科研人员关注情况图
对科研人员被关注网络进行分析,共有 54 853 条边,产生了 16 365 个节点。由此可以算出,东南大学在ResearchGate平台上被其他机构科研人员所关注次数为 13 116 人次的,被其他机构关注的人数是本机构科研人员的 4.04 倍。与关注情况进行对比可以发现,东南大学在平台上更多的是去关注来自其他机构科研人员所更新的状态。以平台所注册的科研人员和关注该人员的研究者为节点,以关注关系为边,绘制被关注情况关系图(过滤掉度范围小于40的点),如下图 2 所示。
圖2 东南大学ResearchGate平台科研人员
被关注情况图
由图1和图2以及相关节点数据可知,科研人员被关注的网络更加密集、用户之间的联系更加紧密,其中“Abu-Bakre Mohamad”和“Ping-Qi Pan”两位科研人员在两个群组中都扮演了十分重要的角色,“Abu-Bakre Mohamad”来自土木工程学院,拥有工程学硕士学位,目前博士在读;“Ping-Qi Pan”则是一位来自数学学院的全职教授。另外,还有多个节点链接了较多其他节点。整个关注网络和被关注网络共同构成了一个在线社区的学术交流网络,形成了一个作用力场,节点之间相互影响、相互作用。
2 ResearchGate平台关注情况的分析
2.1 不同院系学科使用情况
笔者通过访问ResearchGate网站的各个院系主页对其注册情况以及上传的相关出版物情况进行了统计,统计结果如表1所示。
从表1可以看出,注册用户主要来自于理工类学科,人文社会科学目前只有经济管理学院的科研人员较为活跃,这与段庆锋等学者所得出的研究成果基本类似。
通过简单统计,科研人员中仅有975人填写了自身详细的学科、院系信息,占全部获取数据的25.46%。进一步对将科研成果发布到ResearchGate平台上的科研人员数量进行统计分析,共计找到1203名科研人员,占全部获取科研人员的31.41%;相反,填写了自身学科的科研人员占全部的84.49%,再将1.4研究结果中的关注情况加以考虑,关注其他科研人员与被其他科研人员关注的人数均超过了81%。笔者认为这说明大多数科研人员将科研社交平台视为一个较好的信息接收平台。
2.2 点度中心性分析
基于ResearchGate平台的科研人员关注与被关注情况点度中心度对比数据见表2。根据表格可以看到,不论是关注节点还是被关注节点中,度最大的用户均不在本网络的中心位置,考虑到一个高校内部科研人员的不同研究兴趣、研究方向,笔者认为这是可以理解的。这也可以解释为什么近些年来科研社交平台愈发受到关注,参照过往的研究[11],笔者认为这有可能是在传统学术交流体系下,学者之间更倾向于同熟悉的科研人员进行合作。
在被关注网络中,节点“Jinde_Cao”的中介中心性是极高的,这与其最高的被关注次数应当是密不可分的。在被关注网络中,节点“Jinde_Cao”的入度为948,而出度为18,这表明了该研究人员吸引了较多来自其他科研机构的科研人员对其进行关注。
2.3 中介中心性分析
中介中心性(Betweeness Centrality),又叫中间中心性、中间性、居间中心性等等。中介中心性指的是网络中经过某个点并连接到这两个点的最短路径占这两个点之间的最短路径总线之比。中间中心性高的点往往位于连接两个不同聚类的路径上,它为发现不同学科的连接点或进化网络中的支点(tipping points) 提供了一种计算方法。当一个行动者的中介中心性指标很大时,说明网络中有很多节点与该节点相连接,其地位也就更加重要,因而,该行动者也就在该网络中占据了更多的位置,网络中的其他节点也会更多的依赖于这个中间节点的行动者。
由学术平台的科研人员节点的中介中心性数据结果(见表3)可以看到节点“Abu-BakreMohamad”和节点“Ping-Qi Pan”的中介中心性不论在关注网络还是在被关注网络当中都是最高的。原因在于被关注网络相比关注网络更加稠密,因而可以在被关注网络中获得更高的中介中心性值。
2.4 Harmonic中心度分析
基于最短路径的中心度算法包括接近中心度(Closeness)、中介中心度(Betweenness)、Harmonic 中心度、Eccentrality和 Centroid 等。这一类中心度基于网络中节点间的最短距离。Yannick[12]认为Harmonic中心度可以作为接近中心度的替代算法,并可以扩展到无向图中。由于接近中心度在分析过程中,若某个节点同其他节点没有连接,那么该节点的中心性最小,与接近中心性相背离;然而Harmonic中心度则不要求是一个完全连接的图谱。
根据目前的研究,当接近中心性值越大,则关键研究人员可以接触到的异质性知识及获得这些异质性知识的便捷性和能力就越强[13]。通过调查发现,从接近中心度的角度来说,中介中心性的节点度接近中心度也很高。但是对于Harmonic中心度,中介中心度大的节点,一般其值也比较大。相比被关注网络,关注网络中Harmonic中心度为1的科研人员数量更多。根据计算,所有科研人员平均关注他人22.43人次,关注网络中Harmonic中心度值为1的科研人员人均关注65.61人次,即便是极小值也为29,大于平均关注人次。由于关注网络中Harmonic中心度较大,说明研究人员独立获取信息的能力较强,而学术人员之间的影响力则并不明显。
3 基于科研社交平台信息服务的思考
笔者通过抓取获得的社交网络数据进行分析,展现了Science2.0环境下科研信息接收和传播的新特点。在目前互联网络环境下,科研社交平台可以根据科研人员的有关信息进行个性化信息推送,而大多数用户是为了获取相关学术信息而注册科研社交平台的。结合前述分析,本文提出以下三点思考。
3.1 图书馆应当尝试开展个性化服务
就以高校图书馆而言,目前基于社交平台开展的服务主要是一些公共信息,如图书推荐、通知公告、活动预告、活动报道、好文推荐、温馨提示、讲座信息等[14]。然而,这些信息无法满足用户的个性化信息需求。笔者认为,高校图书馆的社交平台服务可以聚焦于科研成果以及国内外科研社交平台上科研人员的利用情况,对此加以深入研究,从而了解科研人员获取信息、利用信息的途径以及行为习惯。对于公共图书馆而言,则可以借鉴当下亚马逊等购物网站中已经较为成熟的推荐系统,向读者推荐图书。
3.2 通过数据了解用户行为偏好
在2.4Harmomic中心度分析中可以看出,关注网络的中心度要高于被关注网络。结合2.1不同院系使用情况中关注与发表科研成果的数量,笔者认为科研人员更倾向于使用平台来获取信息。当然通过科研社交平台给自己的科研成果以更多曝光机会也是其功能之一。对于图书馆或信息服务机构而言,应当有规律的、定期将科研人员学术成果以及其他平台上使用的情况进行有效融合,为未来可能存在的信息服务提供数据支持。
3.3 了解所服务群体的社群结构
通过中介中心性分析,可以了解到本单位所服务的科研人员中哪些人扮演了“中间人”的角色。“中间人”代表了为群体之间其他成员传递信息的那些人群。信息机构或图书馆在开展新服務的时候,可以尽可能邀请“中间人”尝试或推荐新的产品。通过“中间人”的推荐,可以更快地使得产品在用户中获得推广。