在线学术社交平台的用户行为研究
2018-01-02耿斌孙建军
耿斌+++孙建军
摘 要:在线学术社交平台为科研工作者提供了一种新型的学术社交方式,文章试图从用户使用的角度对在线学术社交平台的用户行为进行研究。以ResearchGate平台南京大学的用户为研究对象,采用相关性分析、社交网络分析等方法,从用户活跃度、用户使用行为关系、用户合作网络等方面对平台的用户行为特征进行研究。研究发现,平台上用户的使用状况受学科背景影响,理工类用户活跃度较高;用户上传、阅读、引用行为之间存在相关关系;校内用户持续与校外用户合作更易产生稳定的合作团体。
关键词:在线学术社交平台;用户行为;ResearchGate;合作网络
中图分类号:G206 文献标识码:A DOI:10.11968/tsyqb.1003-6938.2017093
User Behaviors of Online Academic Social Platform
——Case Study of Nanjing University Users of ResearchGate
Abstract Online academic social platform provides researchers with a new way of academic social interaction. This study attempts to examine the user behaviors of online academic social platform from the perspective of user usage. Users of ResearchGate in Nanjing University as the research object and their behavioral characteristics are examined with the correlation analysis and social network analysis about their activity, behaviors, cooperation network and so on. The research discovers that the status of users' usage on the platform is influenced by the background of their academic subject to a large extent, for instance, the users majored in science and technology are far more active than others; There exists a relationship among uploading, reading and citing behaviors; It is easier to generate a stable cooperative group when users in school retain working with the external users.
Key words online academic social platform; user behaviors; ResearchGate; collaboration network
1 引言
隨着Web2.0的快速发展,传统学术社交方式已经很难满足日益增长的学术社交需求,在线学术社交以及数字化成果共享已经成为学者学术交流的一种重要途径。在线学术社交平台是一种为了增进知识的交流与传播,帮助科研工作者建立和维护社交关系,同时支持科研工作者研究的整个过程的平台[1]。以ResearchGate、Academia、Mendeley、科学网、小木虫、学术圈为代表的在线学术社交平台,通过在线通讯、及时共享为科研工作者提供了一种新型的学术社交方式。同时,科研工作者通过在线学术社交平台创建个人信息、发布科研成果、开展学术交流,还能够提高其学术影响力[2]。
在线学术社交平台用户行为是指用户在结合自身学术需求、科研环境、平台功能的基础上做出的使用在线学术社交平台的意愿,以及产生的各项活动过程及其结果的总和[3]。学术社交平台的主体是用户,用户的客观行为数据直接反映了用户的学术需求。研究用户行为是研究在线学术社交平台的重要组成部分。通过研究用户行为数据可以把握用户的使用意愿以及使用规律,有利于在线学术平台改进平台功能,完善平台服务,提高用户忠诚度,同时有利于科研工作者进行更好的在线学术交流。因此对在线学术社交平台的用户行为进行研究,发现用户行为的特点,具有重要的研究意义。
2 研究综述
在线学术社交正在逐渐改变科研工作者的工作方式,协作共享已经成为了学术研究的重要组成部分[4]。而这一特点与Web2.0所强调的“参与”“包容”“合作”理念十分吻合,因此,随着Web2.0技术的迅猛发展,在线学术社交平台得到了广泛的应用,对在线学术社交平台的研究也吸引了不少学者的关注。目前,对在线学术社交平台的研究主要基于两种思路展开:一是将在线学术社交平台当作一种软件或工具,以平台本身作为研究对象,对平台现状以及平台上的功能、服务进行研究,期望找出学术社交平台的价值、发展规律以及未来的发展方向[5-6];二是通过问卷间接地获取用户意愿数据或者直接使用平台内丰富的用户行为数据,以用户为研究对象,使用统计、计量、社会网络等研究方法,研究用户使用平台的意愿或使用平台过程中所产生的行为特征以及规律[7-9]。
学术社交平台本身的研究主要是强调在线社交平台的功能性作用。如Ovadia[5]认为学术社交平台的重要性逐步提高,平台的功能可以更好地为学者服务,在众多的学术平台之中ResearchGate是最重要的在线学术学社交平台之一;Citrome[6]的研究显示,使用在线社交网络创建项目文件、交流项目进展有利于科研工作的进行,且科研项目的网格化实施有利于成果的产出。在对平台用户行为的研究中,相关研究发现,用户会表现出对学术社交平台的粘性。如Nature[10]在其调查中提到,科研工作者中超过25%的受访者使用在线社交平台的频率甚至多于日常社交平台(如Facebook、Twitter等)。不仅如此,随着替代计量学的提出,在线学术社交平台的指标体系对衡量科研工作者也起到了一定的作用。Shrivastava[9]通过对比在线学术平台的指标与传统评价指标之间的关系发现,两者之间存在相关关系,如:传统的引文数据与社交平台上项目被引用数据呈现相关关系。综合目前的研究来看,用户行为多从使用习惯、合作方式、相关关系一个角度进行分析,并且国内对于国外在线学术平台的行为分析研究较少。因此本文选取具有代表性的ResearchGate平台,从多个角度探讨在线学术社交平台的用户行为。endprint
3 研究设计
3.1 研究目的
本次研究旨在通过客观真实的用户数据,从用户使用的角度对在线学术社交行为进行研究,探究用户在ResearchGate平台上的用户活跃度;用户使用社交平台的各项行为之间是否存在相关性以及怎样的相关性;用户校内合作与校外合作两种合作网络的基本属性与结构特征。
3.2 研究方法
为了完成研究目标,本次研究使用数据爬取,统计分析,信息计量,社会网络分析的研究方法对数据进行采集、处理、分析。利用Python语言编写爬虫对在线学术社交平台ResearchGate用户行为的相关数据进行爬取,使用Mysql数据库存储研究数据,使用R语言对数据进行预处理并对数据进行统计分析以及社会网络分析。
在使用R语言进行数据分析的过程中,首先使用描述性统计分析方法对数据样本进行定量分析;使用相关性分析方法分析用户各项行为(如:关注,上传项目,阅读,引用等)之间的相关性;使用社会网络分析方法对两种合作网络的网络属性以及网络结构进行分析。
3.3 数据来源及处理
ResearchGate是一个学术在线社交平台[11],是由德国的Ijad Madisch博士、Soeren Hofmayer和Horst Fickenscher在2008年5月建立[12],旨在服务全球科研工作者。通过在该平台上建立账号,用户可以发布个人最新的科研成果且免费查阅其他科研工作者发布在平台上的项目,寻找有相同研究兴趣的研究人员。截至2017年8月,该网站宣称注册人数已经超过了1亿人,拥有1300多万研究人员和70多万研究项目,是全球最成功的在线社交网站之一。在平台上,用户通过完善个人信息,发布研究项目,分享研究成果,关注研究人员,回答研究者提问等行为获得平台上的影响力,因此该平台产生了大量的用户行为数据。相较于其他的学术社交平台,该平台用户活跃度和持续使用率最高[13]。南京大学作为综合性科研院校,注册人员,项目发布,平台影响力(RG指数)均处于前列,用户活跃度较高。因此本研究选用该样本对在线学术社交平台用户行为进行研究。
截至2017年8月21日,本次研究通过编写Python爬虫程序,采集南京大学ResearchGate平台上用户行为数据(见表1)。
采集到的原始数据包括:南京大学主页数据,各院系主页数据,5642名注册用户行为数据以及55481条合作数据。由于存在用户数据缺失值过多,平台院系分类和学校设置不同,部分院系没有主页信息,数据格式等问题。本次研究对原始数据进行了人工处理并且将平台上院系分类合并到学校设置的院系之中,处理后的数据包括校主页数据,学校设置的院系数据、5642名注册用户数据以及55326条用户合作数据。然后,将处理后的数据存储到Mysql数据库中进行后续分析。
4 数据分析与结果讨论
4.1 用户活跃度分析
本次研究共有5642名用户,发布了23704个项目,人均发布项目4.2项,从用户学历构成上来说,在填写了学历的用户中,博士在读及博士以上学历人员占60.39%,硕士学历占10.07%,由此可以看出该平台用户学历以博士在读及以上学历为主,在填写了职位的用户中,教授及研究人员占57.6%,参与度较高,说明科研工作者有较大的学术社交需求和较强的学术社交意愿。
为了研究不同学科,不同领域的用户的使用状况,将用户按学院分类进行统计(见图1),院系中注册人数排在前五位的分别是地球科学与工程学院、物理学院、化学化工学院、生命科学院以及计算机科学与技术系,部分院系的注册人数更是超过了400人。而文学院、社会学院等院系由于注册人数过少,均没有主页相关信息。由此可以看出,在用户学科背景方面,理工科院系的注册人数明显高过文科院系。在平台的使用上,文科类和理工科类院系出现不均衡的现象。究其原因,可能是因为学科研究对象不同,部分研究没有平台使用的需求,因此用户的使用率较低,活跃度也相对较弱。
从项目发布数量这一属性来说(见图1),排在前五位的学院分别是化学化工学院、物理学院、环境学院、医学院以及地球科学与工程学院,其中,化学与化工学院发布的项目数超过了5000项。作者数是指用户发布的项目中填写的作者数量,从作者数的角度来看,作者数排在前五位的分别是化学化工学院、物理学院、医学院、地球科学与工程学院以及生命科学学院。而从项目的被阅读数上来说地球科学与工程学院、环境学院、物理学院位列前三位。为了进一步探究不同学科用户之间的行为差异,本次研究使用单位用户发布文件数、单位文件被阅读数以及单位文件作者数三个指标对不同学科用户行为进行研究,列出公式:
从Pi、Pr、Pa三个指标来看(见图2),化学化工、物理、环境、数学四个院系的Pi值较高,体现出這三个学科背景的用户分享项目的意愿更强烈。在Pr值方面,历史、大气、建筑与城市规划、信息管理四个院系表现出较高的分数,体现出作者发布在平台上的项目有较高的阅读数,侧面体现出这几个学院上传的项目受用户喜爱的程度偏高。Pa值方面,历史、大气、地理与海洋、生命科学四个院系分数较高,体现出这些院系项目合作氛围较浓,值得注意的是从这一指标来看,数学系分数最低,数学系发布的项目作者多为一个人,但数学系发布的项目数却位于前列,这一现象说明在数学系的项目中,多人合作完成的项目较少,寻求合作的潜力还比较大。
此外,本文还从个人层面对发布项目数、被阅读数、被引数、被关注数、关注数进行统计(见表2)。
从统计数据来看,用户平均关注数18人,平均被关注数6人,人均发布项目数11.193项,人均被阅读量501.757次,人均被引次数93.787次。尽管从平均值来看用户各项属性均呈现较高水平,但是各项属性分布严重不均,发布项目、被阅读数以及被引数的中位数均为0,被阅读数的标准差过大,表现出较为明显的长尾现象。这一现象说明大多数用户发布项目的积极性不高,项目共享方面仍有待提升。而在关注数和被关注数方面分布较为均衡,关注活动发生较为频繁,用户的社交意愿较高。endprint
RG(ResearchGate)指数是直接反应用户在平台上活跃度的指数,本研究对RG指标进行统计发现,南京大学总RG指数为40064.7,人均RG指数为7.1011,从总体上来看用户呈现较为活跃的状态。但通过进一步分析发现,在RG指数中一半以上的用户为0,用户这一指标分布严重不均衡,极差达到50以上,大多数用户仍处于低活跃度的状态。将RG指数为0的不活跃用户去除之后,得到RG指标的分布(见图3)。
通过RG指数可以看出,在活跃用户中,RG值在0-10区间内的用户数仍处于第一的位置,占活跃用户的36%,RG指数在10-20区间的次之。在以10为区间的RG指数分布图来看,用户的RG指数呈现逐渐递减的趋势,RG指数40以上的高活跃度用户仍在少数,仅占活跃用户的3%。
4.2 用户平台使用行为相关性分析
本文从发布项目数、被阅读数、被引用数、被关注数以及关注用户数五个方面对用户使用行为之间的关联进行分析,并在此基础上探究用户使用行为对用户平台活跃指数(RG指数)与用户学术影响力指数(h指数)的影响。本次研究采用Pearson相关系数进行相关性分析(见表3)。
分析得出,发布项目数与被阅读数、发布项目数与被引用数、发布项目数与被关注数、被阅读数与被关注数之间存在较强的相关性(0.8>r>0.5),而被关注数与被引数之间存在较弱的相关性(0.5>r>0.3)。关注用户数与发布项目数、被阅读数、被引次数之间存在极弱的相关性(r<0.3)。通过相关性分析结果可知,用户在平台上上传的项目有较大概率被其他用户阅读、引用,用户阅读平台上发布的项目后有较大概率关注文件上传者,产生学术交流,有利于学术合作。而通过关注他人这一行为很难使上传的项目被更多用户阅读、引用。
从两种指数来看,RG指数与h指数之间存在很强的相关性(r>0.8),用户发布的项目数,被阅读次数,被关注次数对于RG指数均存在较强的相关关系(0.8>r>0.5),项目被引次数与RG指数之间具有较弱的相关关系(0.5>r>0.3)。h指数与用户发布项目数、被阅读次数、被引次数、被关注数之间均有较强的相关关系(0.8>r>0.5)。对于上述两种指数来说,关注用户数与它们之间的相关性程度极弱。由此可以看出,用户学术影响力h指数和平台活跃度RG指数有很强的相关性,通过平台建立学术网络,共享学术成果有利于学术影响力的提升。用户若想提高自己的RG指数,可以通过提高发布项目的数量,宣传项目的成果,进而增加项目被阅读的次数,以此来增加被关注者的数量,从而达到提高RG指数的目的。若想提高学术影响力h指数则可以从发布项目数量,被阅读次数,被引次数,被关注数几个方面来提高。
为了进一步探讨两种指标与发布項目数、被阅读次数、被引次数、被关注数以及关注数之间的联系,本次研究采用线性回归模型对数据进行拟合(见表4)。
可以看出,h指数和RG指数与发布项目数、被阅读次数、被引次数以及被关注数具有显著的线性相关关系。其中发布项目数与两种指数的线性相关程度最大,并且对于RG指数的提升更为明显。被阅读次数、被引次数以及被关注数也有不同程度的线性相关关系。这一结果说明,用户项目发布数量越多,项目被阅读次数越多,项目被引次数越多,用户被关注次数越多,两种指标也会相应的提高。
4.3 用户合作网络分析
用户发布的项目中两位用户一起出现即被看作是一次合作。本文通过用户合作的数据建立合作网络,使用社会网络分析的方法探究用户合作网络的特性。首先,从学校层面上来看,与南京大学合作最多的院校是中国科学院大学和东南大学。对合作数据中合作次数、项目发起人RG指数、合作者RG指数进行统计(见表5),可以看出,合作次数的平均数为3.53次,中位数为2次;项目发起人RG指数的平均值为22.85,中位数为22.62;合作者RG指数的平均数为28.32,中位数为28.97.由此可以看出,用户在平台上的合作次数多为两次以上,多次合作的概率较高。项目合作者的RG指数略高于项目发起人的RG指数,项目发布者更倾向于寻找平台活跃度较高的用户进行合作。
将合作数据分为校内合作网络和校外合作生成合作网络,通过网络聚类系数,网络密度两个指标对两种网络进行分析。节点代表用户,通过共同合作的项目进行连接。网络的聚类系数是表示网络中节点聚集程度的系数,数值越大说明网络内节点的连接度越高,越容易进行聚类。网络密度是反映网络复杂程度的指标,网络密度越大说明网络越为复杂。从合作图的整体情况来看校内合作网络的聚类系数为0.2185,网络密度为0.0009;校外合作网络的聚类系数为0.00768,网络密度为0.0004。由此可以看出,整体上来说,用户合作以校内合作为主,在校内合作的网络中,更易于聚类,校内合作的粘性更高,多次合作的机会更大,校内合作更为紧密。
由于合作图节点过多,仅截取合作数大于20的节点用以展示(见图4)。其中(a)为校内合作网络图,(b)为校外合作网络图。对校内外合作网络进行对比可以看出,当合作次数增加时,校内合作人数明显低于校外合作人数,校外合作网络出现了更多的小团体,小团体内成员关系更加紧密,校外合作的小团体呈现出更加稳定的趋势。由此可以看出在平台的用户之间内部,校外多次合作的概率更高,用户持续与校外用户合作更易产生稳定的学术团体。
5 结论与不足
根据研究可以发现:在线学术社交平台用户的使用状况受学科背景影响,呈现出不均衡现象,理工类用户活跃度较高。平台用户上传项目、被关注、项目被阅读、项目被引之间存在较强的相关关系。上传项目对用户的学术影响力h指数以及平台RG指数具有较大影响。在用户的合作行为中,总体上以校内用户合作为主,但随着合作次数增加,校外合作更易产生稳定的学术团体。
本次研究存在以下不足:虽然ReseasrchGate已经是一个较成功的学术社交平台,但随着平台的发展,未来越来越多的研究人员将使用ReasearchGate学术平台,平台的数据也会随之发生变化,未来可以再次搜集数据,研究在线学术行为在不同时间段内的异同。本次学术社交行为研究仅针对南京大学使用ResearchGate平台的研究人员,不同的用户群体在线学术社交行为可能会有一定的差异,未来的研究可以扩大到多类用户群体,探索不同用户群体在线学术社交行为可能存在的个性与共性差异问题。endprint
参考文献:
[1] 贾新露,王曰芬.学术社交网络的概念,特点及研究热点[J]. 图书馆学研究,2016(5):7-13.
[2] Nández G,Borrego á.Use of social networks for academic purposes:a case study[J].The Electronic library,2013,31(6):781-791.
[3] 杨善林,王佳佳,代宝,等.在线社交网络用户行为研究现状与展望[J].中国科学院院刊,2015,30(2):200-215.
[4] Giglia E.Academic social networks:its time to change the way we do research[J].European Journal of Physical and Rehabilitation Medicine,2011,47(2):345-349.
[5] Ovadia S.ResearchGate and Academia.edu:Academic social networks[J].Behavioral & Social Sciences Librarian,2014,33(3):165-169.
[6] Citrome L.My two favourite professional social networking sites:LinkedIn and ResearchGate-how they can help you,or hurt you[J].International Journal of Clinical Practice,2015,69(6):623-624.
[7] Tang J,Zhang J,Yao L,et al.Arnetminer:extraction and mining of academic social networks[C].Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2008:990-998.
[8] Shrivastava R,Mahajan P.Relationship amongst ResearchGate altmetric indicators and Scopus bibliometric indicators:The case of Panjab University Chandigarh(India)[J].New Library World,2015,116(9/10):564-577.
[9] Almousa O.Usersclassification and usage-pattern identification in academic social networks[C].Applied Electrical Engineering and Computing Technologies(AEECT),2011 IEEE Jordan Conference on.IEEE,2011:1-6.
[10] Van Noorden R.Online collaboration:Scientists and the social network[J].Nature,2014,512(7513):126-129.
[11] Thelwall M,Kousha K.ResearchGate:Disseminating,communicating,and measuring Scholarship?[J].Journal of the Association for Information Science and Technology,2015,66(5):876-889.
[12] Bhardwaj R K,Bhardwaj R K.Academic social networking sites:comparative analysis of ResearchGate,Academia.edu,Mendeley and Zotero[J].Information and Learning Science,2017,118(5/6):298-316.
[13] 張耀坤,张维嘉,胡方丹.中国高影响力学者对学术社交网站的使用行为调查——以教育部长江学者为例[J].情报资料工作,2017(3):96-101.
作者简介:耿斌(1994-),男,南京大学信息管理学院博士生,研究方向:网络信息资源管理;孙建军(1962-),男,南京大学信息管理学院教授,博士生导师,研究方向:网络信息资源管理、大数据分析。endprint