APP下载

基于CiteSpaceⅡ的国内用户生成内容研究可视化分析

2020-07-01杜永峰

江苏科技信息 2020年13期
关键词:热点可视化聚类

杜永峰

(南京农业大学信息科技学院,江苏南京 210095)

0 引言

Web 2.0的网络环境使网络内容更加开放,越来越提倡用户参与,网站不再只是网站发布者独自生成的内容,越来越多的普通用户参与其中,发布自己的观点和看法,将自己创造的东西分享给他人,用户生成内容(User-generated content,UGC)就是指这种普通用户参与制造内容的过程[1],又称为用户制造内容。

通过文献调查,目前国内关于UGC的研究主要包括以下4个方面:UGC及其相关概念、用户研究、内容研究、UGC的应用研究。目前关于UGC概念,主要分为两类:一是指以任何形式在网络上发表的由用户原创的文字、图片、音频和视频等内容[2];二是指与专业生成内容(Professionally-generated content,PGC)相对立的概念,强调内容是由非专业人士的普通用户生成,发布和散播在网络上。从其概念中可以看出,UGC具有用户非专业性、内容具有一定的创新性和传播性的特性。关于用户研究,包括UGC的生成动机和影响因素研究[3-4]、内容的共享意愿[5-6]、学术性用户协同信息行为[7]。关于内容,主要包括用户生成内容法律问题[8]与内容组织。组织方式分为自组织和他组织两种类型,通过分析UGC的特点,其满足系统自组织相关要求[9],他组织是指借助其他组织方法对UGC内容进行组织管理,如元数据[10]、微格式[11]等方法。对于UGC的应用研究,主要指基于各种社会媒体平台,如微博、虚拟社区、视频网站、购物平台等UGC模式和应用研究,对UGC的价值进行评价[12-13]。

为了清楚地展示国内用户生成内容研究的发展,本文将使用CiteSpace可视化软件,对CNKI上我国UGC文献进行可视化展示,了解国内对于该领域的研究情况,分析其发展和研究热点。

1 数据来源与基本统计

1.1 数据来源

本研究数据来源CNKI数据库收录的关于UGC的文献。通过前期的文献调查发现,国内当前普遍使用UGC作为用户生成内容的简称。检索式为“SU=‘用户生成内容’OR SU=‘UGC’”,时间跨度为2007年1月1日至2019年12月31日,在CNKI数据库中进行检索,通过筛选,得到1 476条数据,将其以Refworks格式进行保存,便于之后利用Citesapce软件进行分析。此外,利用CSSCI上收录的相关文献数据作为补充,检索条件为:关键词=用户生成内容,关键词=UGC。

1.2 研究方法

可视化是一种使复杂的信息能够被人们快速理解的手段,是可以放大人类感知的图形化表示方法。CiteSpace研发至今,国内外众多学者运用其对各个领域进行可视化研究,其简单的使用方法和直观的结果展示为研究者提供便利。本文使用美籍华人著名学者陈超美教授开发的信息可视化软件CiteSpace[14],进行数据可视化分析。在CNKI上以Refworks格式导出文献信息,并在CiteSpace进行格式转化,通过合理的阈值和参数设置,绘出直观容易理解的科学知识谱图,进行关键词共现分析、作者合作分析。分析国内相关研究的发展和热点以及作者之间的合作关系等内容。

2 基本统计

年度发文量在一定程度上可以反映它的研究发展趋势和状态。2007—2019年间年度发文量如图1所示,可以明显看出从2007年到2019年这13年内,我国关于UGC研究基本保持逐年上升的趋势,这与现实网络媒体应用发展趋势紧密相关。其中2017年和2018年相关研究数量有些回落,但在2019年又开始增长。从2005年视频分享网站YouTube推出,到现在多种社交媒体网络的发展,互联网中UGC模式兴起并快速发展,并且随着网络技术的发展与推广,越来越多的用户参与到这一新颖的模式。从2007—2011年间国内发表文献数量缓慢增长,该时间段内该领域在我国处于诞生时期,直到2009年,国内UGC研究仍处于起步阶段。根据图1及文献增长规律可知,随后文献增长迅速;且文献增长方式至今没有转化为逻辑曲线增长模式,说明此领域未发展到成熟时期,还有较大的发展空间。

图1 2007—2019年用户生成内容研究CNKI年度发文量统计

表1展示了国内UGC研究领域前十位高被引论文,其中有6篇为研究型论文,有4篇论文位综述型论文,综述型论文占比较高。有9篇论文所属图书情报与数字图书馆领域。从论文作者来看,赵宇翔和朱庆华参与其中4篇论文的撰写,为该领域影响力最高的学者。从论文的发布时间来看,主要集中在2009年和2012年两个年份,从2009年开始,国内关于UGC的研究正式进入快速发展阶段,2012年出现了本领域最高被引文章,该文章对UGC进行了概念解析,并分析了目前的研究进展,作为阶段性的研究成果,为之后该领域的研究打下基础。

3 用户生成内容可视化展示分析

3.1 利用CiteSpace软件进行用户生成内容研究热点可视化展示

关键词从一定程度上可以反映文章的研究方向,是一篇文章的精髓。本文将从CNKI中得到的原始数据进行格式转换,利用CiteSpace可视化工具进行关键词分析,绘制图谱。

数据年代选择2007—2011年、2012—2014年、2015—2017年、2018—2019年,数据切割年代为1年,聚类点类型为keyword,调整引文数量(c)、共被引频次(cc)、共被引系数(ccv),控制图谱产生的可视化节点数和连接数。选择Pruning剪枝优化,经过反复调整,将2007—2011年时间段时间阈值取(2,1,30)、(2,1,30)、(2,1,30),得到可视化节点数为36,连接数为62,自动聚类后如图2所示。将2012—2014年时间段时间阈值取(2,1,25)、(2,1,25)、(2,1,25),得到可视化节点数为94,连接数为198,自动聚类如图3所示。将2015—2017年时间段时间阈值取(2,1,20)、(2,1,20)、(2,1,20),得到可视化节点数为166,连接数为362,自动聚类如图4所示。将2018—2019年时间段时间阈值取(2,1,23)、(2,1,21)、(2,1,21),得到可视化节点数为100,连接数为122,自动聚类如图5所示。

表1 国内用户生成内容(UGC)研究领域高被引论文前10情况

图2 2007—2011关键词共现

从图2—4可以看出,2007—2011年间研究热点主要集中用户生成内容、Web 2.0、互联网、视频、用户行为方向,相互之间存在联系,政府和大学直接存在着密切联系,单独构成一类,此时还有部分研究者称其用户创造内容。2012—2014年间研究热点主要集中在用户生成内容、视频和电视、用户、自媒体、移动端、社会化媒体、UGC模式,用户生成内容研究热点也随着社会热点变迁,出现了诸如社会化媒体、大数据、自媒体等时代热门话题。2015—2017年研究热点较上一时间段来说,之前研究热点之间关系个更加密切,社会化研究更加深入,对于UGC内容、模式、发展也开展研究,逐渐关注用户生成内容的生成和质量。同时也紧随时代热点进行研究,如直播平台、网络直播。

图3 2012—2014关键词共现

图4 2015—2017关键词共现

图5 2018—2019关键词共现

通过将2007—2017年分为3个时间段,并对我国用户生成内容研究热点分析,2007—2011年时间段,相关研究处于刚开始阶段,研究热点多与其自身相关,国内多针对其应用开展研究;2012—2014年时间段,相关研究开展火热,研究紧随时代热点,在研究其应用的同时,对UGC自身理论的研究开始增多;2015—2017年时间段,用户生成内容研究持续升温,并逐渐关注其本质与内容,随着UGC应用领域的扩大,研究热点也越来越广泛。总体来说,从2007—2017年国内相关研究从起步到迅速发展,研究内容及其所涉及的领域越来越广泛,研究从最初的应用现象研究逐渐偏向理论研究,但都是从UGC本身出发,导致其有一定的限制性,没有形成更加全面、多方面的研究体系结构。

从图5来看,2018—2019年国内UGC相关研究与之前“广泛涉及”的研究内容有所区别,研究内容更加具体和深入,从先前大多数的现象探讨和理论研究到具体的社交媒体UGC发展及其影响,但是主要研究内容依旧围绕着UGC本身和其发展。2018—2019年相关研究主要可以分为以下三类:(1)UGC自身和内容研究。UGC的研究带动了学者对于PGC的讨论,研究学者探讨用户的行为模式和UGC在当前网络环境中的发展等研究。(2)网络媒体平台研究。从UGC出发,研究当前热门社交媒体和网络应用,从中探讨UGC对网络媒体发展的影响以及不同媒体环境下内容的发展等研究。(3)UGC的传播和共享研究。UGC的发展对传统信息内容的影响、网络信息共享等研究。

3.2 2007—2017年用户生成内容研究爆发点分析

利用CiteSpace对2007—2019年间关键词进行Timeline View分析,通过调节相关参数,得到其关键词研究热点爆发点,所有词均在2007年就已出现。其中共有3个关键词爆发点与视频相关,包括“YouTube”“视频”“视频网站”,这与国外 YouTube出现引发国外UGC研究类似,国内对于视频这一内容形式研究的UGC内容关注度也相对较高,并且近几年短视频和VLOG在网络上的火爆,也加剧了相关研究的深入。早先国内UGC相关网站和平台较少,国内学者也大多把YouTube作为研究对象,随后随着国内相关产业的发展,才逐渐开展对国内用户生成视频和内容平台的研究。Web 2.0作为UGC发展的基础网络平台,其关键词有着最高的强度,反映了用户生成内容与Web 2.0的密切关系,与国外用户生成内容研究相符合,而移动运营商作为Web 2.0发展的媒介也在较早时期被学者所研究。关键词PGC作为UGC的对立概念,随着对UGC研究的深入,学者开始讨论PGC在当前信息环境下的发展,其持续时间最长,大多数对UGC的研究中都会把PGC与其做对比,且大多数的视频网站和问答社区中PGC的内容也越来越多。用户行为和PGC的研究爆发点最迟,对于用户行为和PGC的研究逐渐开始远离UGC和其内容自身,从用户行为和对立方面开展研究补充和深化了已有的研究,促进UGC的健康发展。

3.3 2007—2019年间用户生成内容研究作者可视化分析

为研究我国用户生成内容作者间的合作关系及核心,选用CNKI数据,通过对数据的整理分析,发现截至目前国内UGC相关研究没有形成比较密切和固定的作者合作关系,没有形成明确的科研团体。从论文成果来看,科研学者之间的联系较少。

选用CSSCI数据,在CiteSpace中数据年代选择2006—2019年,数据切分年代间隔为1年,聚类点类型是Cited Author,得到可视化节点数为102,连接数为234,得到的可视化图谱如图6所示。

图6 作者引用图谱

根据图6中作者引用关系可以看出,引用关系呈现明显的聚类,主要分为6个作者引用聚类。其中国内高被引作者为赵宇翔、杨善林、朱庆华、张慧霞。以国内作者为核心的引用类仅有赵宇翔和朱庆华两人,作为UGC领域早期研究其理论的学者,两人合作发表的UGC相关文章共5篇,共被引705次。可以认为赵宇翔、朱庆华为该学科核心作者。从引用关系来看,国内作者之间的研究引用次数较多,关系较为密切。从引用关系图谱总体来说,被引作者以国外学者为主,国内用户生成内容研究仍落后于国外研究。

4 讨论与展望

本文通过CNKI上关于用户生成内容研究2007年至2019年的相关文献及CSSCI上收录的2007—2019年相关文献,通过统计分析,运用CiteSpace进行可视化分析。对其研究热点和作者可视化谱图显示,并进行分析。

研究热点方面,UGC研究从最早期自身研究逐渐向其相关周边扩展,研究热点紧随时代热点变迁,之后就用户所生成的内容本身进行研究,其研究热点一部分一直与视频、媒体等实际应用相关,研究热点不断细分,并扩展到不同领域。作者合作与核心作者方面,UGC研究没有形成明显的合作关系或仅有较少不够密切的联系,没有通过作者之间的紧密合作来更深层次的研究,这可能与用户生成内容自身有关系,作为一个多学科交叉的研究方向,各个学科之间的研究相关性不大,并且其发展时间有限,国内对其研究不够成熟,缺乏真正核心的作者、团队与机构。

在未来的UGC研究进程中,不仅要跟随时代热点,还要密切关注UGC内容来源,内容的合理性与可靠性,对内容研究需要加强,利用文本挖掘技术分析和组织相关内容。其次,应加强作者之间的合作,各学科之间的交流,形成研究团队,从多学科的角度对UGC进行研究。

猜你喜欢

热点可视化聚类
基于CiteSpace的足三里穴研究可视化分析
热点
思维可视化
基于CGAL和OpenGL的海底地形三维可视化
基于K-means聚类的车-地无线通信场强研究
“融评”:党媒评论的可视化创新
热点
结合热点做演讲
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现