中文社交媒体中学术论文的使用行为研究— 以知乎为例
2022-04-01刘晓娟孙镘莉
刘晓娟 孙镘莉
(北京师范大学政府管理学院,北京,100875)
1 引言
Altmetrics是基于社交网络发展新型学术计量标准的学科[1]。相比于传统引文分析,Altmetrics的计量指标更多、测量对象更广、评价速度更快[2]。越来越多的科研人员通过社交媒体进行非正式的学术交流,以提高研究的关注度和可信度[3];科研管理人员也可以借助Altmetrics更全面、多元、及时地了解研究者的学术工作及影响力[4]。常用的Altmetrics整合工具包括Altmetric.com、PLOS ALM、Plum Analytics等,其Altmetrics指标多来自社交媒体网站、文献管理软件和新闻媒体网站等[5]。然而,这些工具往往由于商业利益考虑或技术壁垒,所选取的指标数据来源是存在倾向性的,比如Twitter、Facebook等在中国大陆普及率极低的社交媒体是其中重要的指标数据来源,而中文社交媒体几乎未被纳入这些整合工具[6],仅有Altmetric.com从2014年开始支持新浪微博,但由于登录限制,自2015年已停止跟踪。因此当前主流的Altmetrics指标具有一定的偏向性,很难公平地评价中文研究成果的影响力,且无法捕捉中文用户对于学术成果的认可度[7]。为进一步完善Altmetrics指标体系,提升Altmetrics在学术评价中应用的可行性,有必要深入探讨中文社交媒体纳入Altmetrics的可行性。
2010年底向公众开放的“知乎”网站(http://www.zhihu.com/)是目前国内最受欢迎的网络问答社区,用户通过提问、回答、专栏文章等形式分享彼此的知识、经验和见解,在交流过程中,用户会因讨论、评价或介绍某个话题,或者为了证明某个观点而提及学术论文。在研究用户的学术交流行为时,相较于其他中文社交媒体,知乎具有独特的优势。如微信由于私密性较强,用户的学术交流行为数据不易获取;而知乎的公开度较高,用户交流数据便于获取。微博的话题属于平级结构,用户在一条微博中需自主添加多个标签才能提高讨论的关注度;而知乎用户在发文时则必须绑定话题,该平台的全部话题通过父子关系构成树形结构,如机器学习的父话题包括人工智能算法和数据科学等,子话题包括社会网络分析和贝叶斯统计等,子话题中的内容会被推送至父话题讨论页面,这种信息组织形式使学术交流效率得以提高,也便于话题相关数据的抓取。由于社交媒体的开放性特点,用户使用论文的场景、形式、动机、内容等各不相同,而这些多样性体现了用户对学术论文的多种观点和态度,以及被使用论文的价值所在。通过调研发现,在知乎中,用户对学术论文的提及和讨论等使用行为比较活跃,适合作为样本展开研究。基于以上背景,本文以知乎为例,对中文社交媒体中用户使用学术论文的行为进行深入研究,探索用户的行为特点,从用户行为的角度探讨将知乎用于补充Altmetrics数据源、评价论文影响力的价值。
2 相关研究
2.1 学术论文中的引用行为
对于学术论文中的引用行为,相关研究已经相对成熟,对引用行为进行了全面和深入的挖掘,特别是对引用动机、情感倾向等方面的讨论。Moravcsik等[8]从四个维度对引用行为进行分类—概念性或操作性、陈述性或敷衍性、扩展或同质、肯定或否定;Shadish等[9]通过问卷调查和因子分析研究心理学领域的引用行为,发现了6种主要的引用动机:举例式、负面性、支持型、创造性、基于个人影响力、基于社会原因的引用;邱均平等[10]将引用动机分为内在引用动机和外在引用动机两个大类,以及知识主张、价值感知、信息源便利性、引用输出、引用重要性五个子类,通过问卷调查和数据分析,研究引用动机对引用行为以及不同引用动机间的影响关系;赵蓉英等人[11]提出全文本引文分析法,即以施引文献的全文数据为研究对象,量化和识别引用行为所反映的文献之间的影响关系,进而更加全面、准确地计算和评价学术影响力;胡志刚[12]通过开发系统提取论文的引用行为信息,包括引用位置、引用次数和引用语境,揭示引用行为的规律和特征,从而发现作者的引用动机,以及被引文献在原文中的功能和作用。
2.2 社交媒体中的论文使用行为
本研究所指的社交媒体中的论文使用行为是指在各种平台上通过某种手段(如链接、标识符、特定操作等)提及科研文献的行为[13]。社交媒体中的论文使用行为与学术论文中的引用行为具有相似性,其动机可能是为了证明自己的观点、梳理相关主题的研究动向和借鉴研究方法与结论等。在对这两种行为开展的研究中,多是通过调查、归纳等方法建立论文的使用或引用行为的分类体系,通过内容分析法对行为展开研究。
相对于发表学术论文的科研人员来说,社交媒体用户的职业种类更多、科研水平差异更大,使用论文的行为和情境更复杂。已有不少研究对社交媒体上的论文使用行为展开研究。Shema等人通过对科学类博客ResearchBlogging.org进行研究,发现该博客的用户倾向于使用高影响力的期刊论文[14],而在博客中被使用的论文,其被引频次也要高于同年内同一期刊中未被使用的论文[15]。Thelwall等[16]对270条链接到学术论文的推文进行动机分析,发现大部分推文只是复述论文标题或提供摘要,95%的用户对论文不发表意见,很难通过推文内容深入了解用户对论文的看法。2015年,Shema等人[17]针对博客上的学术论文使用行为,创建了一个较为通用的动机分类方案,包括讨论、批判、建议、转发、延伸、自引等十大类和若干子类,通过对391篇健康类博客文章进行内容分析,发现:自引现象极少,存在少量对论文的批评,且博文作者试图与广泛的非学术受众进行互动。Na基于上述Shema等人的分类方案,使用内容分析法先后对Twitter[18]和Facebook[19]上与论文相关的讨论进行研究,发现将近一半的讨论只是简单分享论文,并没有深入讨论学术问题,且推文的情感多是中性的,很少有负面情绪表露。
2.3 Altmetrics指标的可用性研究
社交媒体是否能成为Altmetrics数据源取决于其指标在评价论文影响力时的有效性,以往研究常通过对社交媒体的Altmetrics指标和论文影响力评价的传统指标进行相关性分析而加以判断。常用的社交媒体指标包括Mendeley读者数,Altmetric Attention Score,以及Twitter、Blog、Facebook和Google+的提及数等;常用的论文影响力评价传统指标包括Web of Science被引频次、谷歌学术被引频次和h指数等。通过相关性分析,Eysenbach[20]指出论文发表后三天内在推特上的讨论度可以预测其是否会成为高被引论文;郝若扬[6]认为高Altmetrics指标的论文同时具有较高的学术影响力;黄晓等人[21]指出高被引论文的被引频次与大多数Altmetrics指标都具有显著相关性,但相关属性和程度有所差别。以往研究发现Altmetrics指标与传统的引文指标在评价结果上既有相似性也有差异性,认为所分析的Altmetrics指标可以体现论文的社会影响力,不能取代传统引文指标,但可以对论文影响力评价起补充作用[22-24]。
3 研究设计
本文主要借助内容分析法对社交媒体中用户的论文使用行为进行研究。通过调查和归纳,对用户的论文使用行为构建分类体系,由两位编码员共同编码,并对编码的信度进行检验。基于编码结果对用户的论文使用行为进行分析,并将论文使用次数、所获总点赞数和评论数等用户行为数据分别与常用的论文影响力评价指标进行相关性分析,从而发现用户行为规律,在此基础上讨论知乎作为Altmetrics数据源的可能性。
3.1 数据集
3.1.1 数据源选择及数据处理
作为广受欢迎的中文社交媒体,知乎通过问答、专栏文章等方式为用户提供话题交流平台,并向用户推荐相关话题的讨论内容,根据点赞数、评论数对讨论进行排序,其内容推送与评价机制可以使讨论及时地被更多用户浏览和回应、鼓励用户积极参与交流、提高学术交流的效率。在良好的网络社区生态中,用户的交流意愿也较高。以“机器学习”话题为例,截至2021年1月,该话题有106万左右的关注者和4.4万左右的问题,因话题具有专业性和前沿性,其中用户的学术交流较为频繁。由于研究者的学科领域会对其社交媒体中的学术交流活动产生影响[25-27],论文的学科领域会对Altmetrics的覆盖率产生影响[21,28],因此在研究社交媒体上的论文使用行为时,应对学科因素进行控制。综合以上因素,本研究将知乎的“机器学习”话题内容作为研究对象,在讨论页面(https://www.zhihu.com/topic/19559450/hot)抓取了共1,267篇回答和专栏文章,数据最终获取时间为2020年1月16日,抓取的字段为回答或专栏文章的标题、链接,以及作者的主页链接、昵称、简介、关注数、被关注数和成就。
对数据进行预处理,若回答或专栏文章中出现了学术论文的标题或链接,即视为存在论文使用行为,并以此为标准进行人工筛选和摘录,最终得到424篇有论文使用行为的回答和专栏文章,以及共计3,882条论文使用行为记录,并通过去重得到3,301篇被使用的学术论文。
在进行预处理时,发现所抓取的回答和专栏文章中,有6组共15篇内容几乎相同,涉及到260条被使用的论文数据,占总体的6.70%。这种情况多是因为作者转载并发布了同一来源的内容,或者作者一稿多投等,但考虑到这些回答和专栏文章的点赞数、评论数和发布作者都不同,数据占比较低,且此现象是社交媒体上用户行为的体现,故未对重复数据进行严格剔除。
3.1.2 回答和专栏文章数据基本情况
对所获取的424篇回答和专栏文章的数据发布时间进行统计分析,结果如图1(a)所示。由于知乎话题页面只提供近期内容以供浏览,因此本研究所获取数据的发布时间主要集中在2019年10月-2020年1月。
对所获取数据的点赞数和评论数的分布进行分析,结果分别如图1(b)、1(c)所示。由于数据的发布时间与获取时间相隔较近,故整体数值偏低;点赞数和评论数大多集中在较低值范围,较高值范围的数据很少。
对所获取回答和专栏文章的作者情况进行统计,发现大多数作者没有公开身份,在可获取用户身份的回答和专栏文章中,超过一半均是硕博研究生发布的。这表明社交媒体中的用户更倾向于保持匿名状态,试图使学术交流更关注内容而非用户本人;而在公开身份的用户中,处于科研成长期的用户的学术交流行为更为活跃。
3.1.3 论文数据基本情况
对被使用的3,301篇论文展开分析,这些论文的公开发表时间如图2(a)所示,论文发表时间跨度较大,最早可至1948年,绝大多数论文的发表时间集中在2013-2020年。
对近五年发表且能获取发表月份的2,911篇论文展开分析,其发表月份分布如图2(b)所示。从图中可知,2015-2019年被使用的论文逐渐增多;论文的发表月份相对均衡,但2019年9月、2019年12月、2020年1月的论文相对较多,尤其是2019年12月的论文达到了极高值772篇。多数论文的发表时间与回答和专栏文章的发布时间接近,这体现了社交媒体中用户使用论文的及时性。
3.2 编码设计与实施
3.2.1 构建编码体系
在借鉴以往研究的基础上,结合知乎网站的实际情况,本研究将用户的学术论文使用行为分为三个方面:使用场景、使用形式和使用语境,其中使用形式又细分为提及方式和详细程度,使用语境又分为情感态度和使用动机,共五大类,每类又细分了若干子类进行编码。分类及具体说明见表1。
图2 ᅠ被使用论文的发表时间情况Fig.2 Publication Time of the Used Papers
表1 知乎用户的论文使用行为分类编码体系Table1 Classification and Coding System of Zhihu Users' Papers Usage Behaviors
使用场景是指用户撰写回答或专栏文章的目的,编码单位是回答或专栏文章,对其性质进行区分,从而发现论文使用行为的整体背景。
使用形式包括提及方式和详细程度,其编码单位是回答或专栏文章中每一篇被使用的学术论文。提及方式指用户在回答或专栏文章中提及论文时,给出的论文信息形式。了解用户使用论文时的提及方式,可以探索社交媒体用户使用论文的主要形式和规范意识,同时讨论在知乎捕获论文使用行为时所需采用的手段及其可行性。详细程度指回答或专栏文章中对论文介绍的详细程度,分为列举、简单提及和有一定篇幅的使用三类。
使用语境包括情感态度和使用动机,编码单位是回答或专栏文章中每一篇被使用的学术论文。情感态度主要分为四类,用来描述作者对所使用论文的情感偏向。使用动机从三个角度进行分类:使用原因侧重于描述论文得以吸引用户使用的特质,如新颖度、主题相关度、认可度等;使用内容侧重于描述用户使用的具体内容,若使用了正文内容,则可进一步细分为四类;自引侧重于用户使用自己所发表论文的情况。了解用户使用论文时的详细程度,并结合使用场景、使用语境等信息,可对用户行为规律进行更深入的分析,从而发现社交媒体中被使用论文的价值所在。
由于用户的使用行为具有复杂性和多样性,在编码时,A、B、C、D四类每一类都只选择一个子类标注,E类可以选择一到三个子类进行标注。
3.2.2 预编码
本研究采用两位编码员共同编码的形式,在正式编码前学习编码体系、进行预编码并验证信度。由于部分回答或专栏文章存在多篇列举型论文使用行为,即在同一篇回答或专栏文章中用户以列举形式使用多篇论文、且未对每篇论文展开介绍的情况,而这类行为在数据中占比较大、标注规则又较为统一,因此编码员抽取了非多篇列举型论文使用行为的10%进行预编码。完成预编码后,编码员再次进行讨论和学习,明确并细化了编码规则,得到预编码中使用场景、使用形式和使用语境各类的一致性系数均超过90%。
3.2.3 正式编码
对未进行预编码的3,692条数据进行正式编码,除使用场景、提及方式、详细程度、情感态度和使用动机外,需要标注的字段还有每篇回答或专栏文章的点赞数、评论数、发布时间,以及每篇论文的公开发表时间。前三项数据的获取截止日期为2020年3月1日,第四项数据采用论文公开发表的时间也是论文最早开始产生影响的时间,包括以非正式的形式发表在预收录、学术交流或公开评审平台(如arXiv、ResearchGate、OpenReview等)的时间。完成正式编码后,研究人员随机抽取了50条数据进行二次编码,得到各类编码一致性系数均超过了95%,再次证明了本次内容编码的可信度。编码示例如表2所示。
4 知乎用户学术论文使用行为编码结果分析
通过内容编码,对使用行为中使用场景、使用形式、使用语境、使用次数的编码结果进行分析,并结合各类之间的交叉分析,发现不同类别之间可能存在的联系,以对知乎用户的使用行为进行原因探索和规律总结。
4.1 使用场景
对424篇有论文使用行为的回答或专栏文章的使用场景进行分析,结果如图3(a)所示。使用了论文的回答或专栏文章大多是与某些研究问题、主题等相关(42.93%),以及整篇偏向于对论文的讨论、解读、评价等(39.62%);相比于其他使用场景,在与论文讨论相关的场景中,使用行为对论文描述的详细程度更高、对论文的情感态度更明确。因介绍期刊而使用论文的情况极少(0.47%),而因介绍学术会议而使用论文的情况稍多一些(4.95%),这可能是因为在机器学习领域,部分会议论文相较于期刊论文更受到关注和认可,许多学者也更偏向于在学术会议上分享自己最新的研究成果和进展。此外,存在论文使用行为的424篇回答或专栏文章中,与职业、学习和资源提供相关的场景占10.85%,但该类别中的论文使用行为却在3,882条使用行为中占据48.43%,且这些使用行为中93.62%为简单的列举、98.67%持中性的情感态度,可见该类回答或专栏文章常使用大量论文但未展开介绍或评价。
知乎用户通常在讨论某个主题或论文时使用论文,说明用户在知乎使用论文的行为并不是无目的、无意义或随机的,而是期望形成有效的专业交流,这也表明知乎存在较多愿意进行学术交流的用户和有利于学术交流的环境,其中的论文使用行为在一定程度上能够反映中文社交媒体用户对论文的关注度和认可度。
图3 ᅠ用户论文使用行为的编码结果分析Fig.3 Analysis of Coding Results of Users’Paper Usage Behaviors
4.2 使用形式
对3,882条使用行为对论文的提及方式进行分析,结果如图3(b)所示。提及论文时,使用标准引文格式的行为占16.41%;使用形似引文格式、但信息不全的非标准引文格式的行为占15.77%;其他不太规范的使用行为中,使用标题和链接的情况较多(51.70%)。可见在对论文引用格式并无严格规定的知乎,大多数情况下用户对论文的提及方式不是标准的引文格式,而是倾向于多种不规范的形式,这体现了用户在知乎发布内容时的随意性,可能会给捕获论文使用行为、准确统计论文使用情况等带来困难。
对3,882条使用行为对论文使用的详细程度进行分析,结果如图3(c)所示。大部分论文被使用的详细程度为简单的列举(68.11%),除了论文的部分题录信息,对论文几乎没有更多的解释或说明;除标题、作者等信息外,对论文还有简要介绍的占比为20.38%;对论文有一定篇幅的解读、评价或说明的情况占比最少,为11.51%。由此可见,相比于学术论文中的引用行为,知乎用户在使用论文时,较少对论文展开详细介绍,因此有时需结合回答或专栏文章的更多内容对其使用目的进行识别和分类。
4.3 使用语境
对3,882条使用行为的情感态度进行分析,结果如图3(d)所示。证明、解答、客观讨论、解读等中性的评价占了绝大多数(92.50%);明确的推荐、赞赏等正面评价占比6.88%;而批评、质疑和反对等负面评价仅占0.23%,少于双向评价(0.39%)。可见用户在知乎使用论文时极少表露明确的情感态度。
对3,882条使用行为的使用动机进行分析, 结果如图3(e)所示。从编码结果看,绝大多数对论文的使用动机是论文与某个问题或主题相关(87.87%),这种情况在各种使用场景下的回答或专栏文章中均有较高占比。由于论文的新颖性而使用论文的行为占26.46%,其中超过90%发生在提供资源的回答或专栏文章中,且仅以列举形式使用,说明知乎用户会积极分享近期新发表的论文,但很少进行介绍和评价。由于论文被认可而使用论文的情况仅占6.16%,其中64.83%均对论文有所介绍,说明用户倾向于对受到认可的论文进行更详细的描述。部分行为使用了论文内容,24.76%使用了论文的正文内容,对论文摘要信息、论文的实践应用的使用占比很少,分别为2.60%和2.37%。相对于其他场景而言,用户更倾向于在介绍论文的回答或专栏文章中使用论文内容,尤其是正文内容,而在与职业、学习和资源提供相关的场景中极少使用论文内容,这可能是由于用户在解读论文时更容易使用论文的内容加以说明,而在提供资源时不会介绍太多。自引行为极为少见,机构自引与作者自引的情况分别为0.80%、0.77%,均不超过1.00%,但自引在各类回答或专栏文章中都有出现,大多数均倾向于对论文展开介绍,作者自引的介绍篇幅整体多于机构自引;作者自引中对论文持正面态度的多于机构自引,占28.57%,其余均为中性态度,没有负面评价。
表2 ᅠ知乎用户的论文使用行为编码示例Table 2 Examples of Coding of Paper Usage Behavior of Zhihu Users
在961条使用了论文正文内容的使用行为中,大多数使用行为都使用了论文的理论、模型、算法和方法等内容(73.78%),使用了论文中的结果、结论和观点等内容的行为占比也高达50.16%,提及论文数据的行为较少,仅占6.87%,说明用户更关心论文的主体内容。
结合使用语境、使用形式和使用场景共同分析,发现在使用论文时,对论文介绍的详细程度越高,正面、负面或双向等非中性的情感态度越有可能表露,使用动机越有可能得到较多体现。因此,详细程度、使用场景、使用动机不同的论文使用行为中,被使用论文所体现的价值可能有所差别,论文产生的影响力也不同,在进行论文影响力评价时可用加权等方法对其指标稍作调节。
4.4 使用次数
对论文在3,882条使用行为中的被使用次数进行统计,发现绝大多数论文都只被使用了一次(88.25%),被使用2次的论文占8.21%;而被使用较高频次的论文极少,5次以上的总计只有16篇。在相关研究中,也曾发现多个Altmetrics数据源存在高频使用论文为极少数的现象[28]。基于内容编码的结果,分别对数据集内被使用了1-2次和被使用了5-15次的论文对应的使用行为进行分析,以比较对于低频和高频使用的论文,用户在使用时的行为特征。
低频使用的论文较多地出现在与职业、学习和资源提供相关的场景中(52.30%),这些使用行为大部分是列举形式(72.19%),详细程度较低。高频使用的论文较多出现在与研究问题、主题、方向、领域等相关的场景中(61.00%),这些使用行为多数会对论文展开介绍(67.00%),详细程度稍高;在动机方面,这些论文会因得到某种认可而被使用(23.00%),其正文内容更多地被使用(41.00%),但极少因新颖度而被使用。
论文被使用的次数在一定程度上反映了论文在知乎的关注度,高频和低频使用的论文在被使用过程中存在的用户行为差异,表明知乎用户有识别论文质量和影响力的能力,从而说明论文的知乎关注度可以部分体现论文的影响力。
5 论文使用行为数据与常用影响力指标的相关性分析
5.1 论文使用行为数据与常用Altmetrics指标的关系
从3,301篇论文中抽取样本,在置信度为95%、误差为5%的情况下,通过Z检验计算得到样本量为344,再以论文被使用次数作为分层标准进行分层抽样。由于部分论文存在难以获取DOI等信息、未被追踪等问题,无法通过Altmetric.com得到论文的AAS和使用了对应论文的推特数,因此用于相关性分析的最终样本量为286。对样本论文在所获知乎数据中所有使用行为的点赞数和评论数求和,得到每篇论文的总点赞数和总评论数。
对286篇样本论文所获得的总点赞数、总评论数、知乎使用次数、AAS和推特数分别进行K-S检验,得知这五项均不符合正态分布,因此分别对论文的AAS和提及该论文的推特数与所获取知乎数据中对这篇论文的总点赞数、总评论数和使用次数进行Spearman相关性分析。
由表3、表4可知,推特数、AAS分别与总点赞数、总评论数、使用次数均通过了相关性的显著检验,其中与总点赞数的相关程度更高。这表明,上述三种论文使用行为数据一方面能在一定程度上与现有的常用Altmetrics指标共同反映论文的社会影响力,另一方面也可能关注到这些Altmetrics指标未反映的情况,从而有可能提供新的Altmetrics数据源和评价指标。
5.2 论文使用行为数据与WoS被引频次的关系
同样地,完成样本抽取后,由于部分论文无法通过Web of Science获取到被引频次,因此用于相关性分析的最终样本量为174。
对174篇样本论文所获得的总点赞数、总评论数、使用次数和被引频次分别进行K-S检验,得知这四项均不符合正态分布,因此将论文的被引频次分别与所获取知乎数据中对这篇论文的总点赞数、总评论数和使用次数进行Spearman相关性分析。
由表5可知,被引频次与总点赞数、总评论数具有显著相关性,但与使用次数不具有相关关系。可见上述三种论文使用行为数据中,总点赞数和总评论数能在一定程度上反映论文的学术价值。
6 结论与展望
当前主流的Altmetrics指标对中文社交媒体的关注较少,在评价中文研究成果和反映中文用户观点时存在缺漏之处,因此需探索中文社交媒体上的论文使用行为,挖掘行为的属性、动机与模式。作为用户众多、交流活跃、内容丰富的专业平台,知乎具有较高的研究价值。因此,本研究以中文社交媒体知乎为例,针对机器学习领域的用户,对其学术论文使用行为展开研究,讨论在该平台发展Altmetrics指标的可能性,为Altmetrics数据源的补充和学术论文影响力的评价提供参考。同时,本研究也为此类问题增加了研究实例,为后续基于社交媒体的学术交流行为研究提供理论、方法等方面的借鉴和参考。本研究的主要发现如下:
(1)知乎用户对学术论文的使用行为具有多样性和复杂性,也存在一定的规律性。用户在各种场景的回答或专栏文章中均可能使用论文,且以讨论研究主题或论文的场景为主;用户对论文的提及方式有多种形式,且通常不使用规范的引文格式;用户对论文介绍的详细程度、使用论文的情感态度和动机各有不同,大多数情况下,论文使用行为的详细程度较低、情感态度为中性、动机是论文与主题相关;用户的使用行为之间具有关联性,比如用户在介绍某篇论文,特别是该论文已得到广泛认可时,往往会对论文进行更为详细的描述。
(2)知乎是一个适合开展学术交流的中文社交媒体,用户在交流中使用论文的行为可以反映他们对论文的关注和各种态度。知乎用户会积极且及时地在社交媒体上使用或分享论文,从而增加新论文的关注度,但对论文的讨论不太深入和具体,能形成高讨论度的内容也较少。该平台还存在一些不足,如用户提及论文时其格式缺少统一或规范,使用行为不易捕获和统计;用户对论文的介绍或讨论篇幅较短,不便于分析情感态度和使用动机等。
(3)结合相关性分析来看,针对机器学习领域的论文,知乎作为中文社交媒体,有成为各Altmetrics聚合平台的新数据源的可能性,可以补充现有主流Altmetrics评价体系,从而更加全面地评价学术论文的社会影响力。
表3 ᅠ推特数与总点赞数、总评论数、使用次数的相关性Table 3 Correlation Between the Number of Tweets and Total Likes, Total Comments, and the Number of Usage
表4 ᅠAAS与总点赞数、总评论数、使用次数的相关性Table 4 Correlation Between AAS and Total Likes, Total Comments, and the Number of Usage
表5 ᅠ被引频次与总点赞数、总评论数、使用次数的相关性Table 5 Correlation Between Citations Frequency and Total Likes, Total Comments, and the Number of Usage
结合以上分析和发现,本文对于将知乎作为新Altmetrics数据源评价学术论文的社会影响力提出以下建议。
首先,知乎网站官方可以考虑为用户对学术论文的使用提供一些辅助手段,如论文特殊标识符、论文信息格式规范等,同时提供API接口、开放部分数据,这样不仅能为论文使用行为的识别、Altmetrics聚合平台的数据获取与统计提供便利,还能帮助用户更高效地使用论文,一定程度上可以吸引更多用户在知乎上进行学术交流,有利于提高知乎的学术内容质量;其次,由于点赞数和评论数的浮动性,应对使用论文的行为进行持续关注和更新,以更好地反映论文的即时影响力;再次,考虑到不同用户的影响力差异,在必要时应将用户的关注度作为调节系数适当地纳入影响力评价中,但该调节系数应根据具体情况决定调节的方向(正向或负向);最后,在可能的情况下,应将用户在社交媒体中的论文使用行为分类,为每个类别赋予不同的权重后,再将数据纳入Altmetrics指标体系,计算论文的社会影响力。
本研究也存在一些不足之处。第一,由于知乎的网页限制,所获取的数据在时间上相对集中,研究中的分析和结论是基于特定时间内的数据,但在一定程度上依然反映了社交媒体用户的论文使用行为规律。第二,本研究的数据仅从知乎“机器学习”话题抓取,其中的分析与结论仅能反映这一领域的情况,是否能够推广至其他领域还需要更多的研究验证。第三,由于所获取数据中被使用的论文多是因近期发表而未被收录的,其在Web of Science上的被引频次无法获得,因此在对知乎论文使用行为数据与被引频次做相关性分析时,样本数据存在一定缺失,可能导致分析结果略有偏差。最后,本研究对社交媒体上用户行为的分类还有进一步细化的空间。
作者贡献说明
刘晓娟:提出研究思路与框架,论文最终版本修订;
孙镘莉:设计研究方案,数据获取、处理及分析,论文撰写及修改。
支撑数据
支撑数据由作者自存储,Email:202021260065@mail.bnu.edu.cn。
1、孙镘莉. All data.xlsx. 用户的论文使用数据及编码结果.