APP下载

知识图谱视角下的用户生成内容(UGC)研究

2013-04-29黄永勤

知识管理论坛 2013年7期

黄永勤

>>【摘要】

以Web of Science、CNKI和维普等数据库收录的近年来国内外关于用户生成内容(UGC)的文献为数据来源,借助CiteSpace绘制知识图谱,进而梳理UGC领域的演进路线和知识基础,分析出其概念、方法、技术和应用四大层面的研究热点,归纳出其知识管理、传播模式及关系挖掘、商业应用和社会服务的4个前沿主题,可视化分析结果为UGC的进一步研究提供了参考。

>>【关键词】

UGC 用户生成内容 知识图谱 可视化 CiteSpace

用户生成内容UGC(user generated content)是一种新兴网络信息资源创作与组织模式,是在以开放、参与的自服务模式为主要特征的Web 2.0环境下发展起来的。目前关于“UGC”还没有一个公认的定义,OECD对UGC的描述在业界较有影响力,其指出了UGC的三大特征:①Internet上公开可用的内容;②内容的创新性;③强调普通用户的创作[1]。

随着2005年视频分享网站YouTube的推出,UGC模式迅速引起互联网、移动商务和电子政务等领域的关注,并成为国际IS研究的热点。经过近7年的发展,UGC领域研究成果显著。然而,目前仅有范哲[2]和赵宇翔[3]对其初期进展、概念解析做了总结,且研究多以描述性归纳为主,笔者试图借助CiteSpace[4]软件,生成知识图谱,从定量与可视化的角度来揭示UGC领域的演进路径、知识基础、研究热点和前沿。

1 数据获取与处理

选取CNKI《中国学术文献网络出版总库》、维普、万方、Web of Science(包含SCIE、SSCI和A&HCI)作为来源数据库,以user generated content、UGC、consumer generate content、CGC、user created content、UCC、consumer generated media、user generated data、user generated video content、用户生成内容、用户贡献内容、用户创造内容、用户原创内容、客户自主产生内容等词为主题、标题或关键词进行检索。经利用HistCite软件对遗漏文献进行补全、剔重和清洗数据,最后获得中文论文140篇,外文785篇(注:数据采集时间截至2012年10月16日,纳入分析的论文指具有摘要、关键字等论文标准规范的文献)。此外,为了准确分析“关键词”,作者进行了大小写转换、格式统一、同义词合并等处理。

2 演进路径分析

选定“参考文献”节点,以合适阈值运行国外文献数据,生成如图1所示的知识图谱。图中每个节点代表一篇文献,节点越大说明该文献被引次数越多;连线代表文献间的引用,连线越粗表明共引次数越多,即文献关系越紧密,研究主题也越相近。以时间为轴,知识的演进路径如下:①2007年,A1聚焦网络视频的发展,阐述了UGC理念、商业合理性及社交媒体的大众化[5];A2探讨了“e-learning(在线学习)”等主题。②2008年,B1集中关注了移动网络的UGC数据;B2提出了一种“user generated tabloid content(用户原创小报内容)”[6]概念,探讨了UGC模式对传统媒体的挑战。③2009年,C1着力探究了网络数据挖掘、协同标签模型[7]等主题;C2重视用户行为及分类[8];C3关注UGC网络视频系统的服务模式。④2010年,D对UGC内容的收集与组织[9]、用户动因机制两方面做了系统深入的研究。⑤2011年,E1讨论了协作机制和用户关系等主题;E2转向旅游行业,分析了UGC内容、口碑对用户决策的影响,并对相关商业模式进行了思考;E3细数了UGC给传媒、舆论、服务业带来的挑战和变革[10]。

2005-2006年是UGC发展的初期阶段,UGC以介绍性的报道进入研究者的视野,并引起研究者的极大兴趣,随后开启了学术研究的旅程;2007-2008年是文献呈指数增长的快速发展期,UGC的研究主题逐渐拓展,针对社交平台、新媒体、移动网络和新闻传媒进一步解析了UGC理念,但相关研究主题分散,缺乏关联;随着研究的深入,A1、A2、B1、B2和C1开始“向中心靠拢”,2009-2010年,研究者开始注重从整合的视角,应用信息技术挖掘隐性知识和用户关系,这切合了知识管理的潮流;现阶段研究热情有所下降,处在平稳发展期,研究主题重点关注应用层面,如商业模式、知识利用、用户行为和社会服务等。

图1 文献共被引网络

3 知识基础分析

3.1 基础文献

知识基础(intellectual bases)是由引用研究前沿术语的科学文献所形成的演化网络的引文和共引轨迹,它能相对稳定地反映某一学科领域前沿的本质,有助于预测动态趋势[4]。统计共被引频次,排名前6位的节点信息见表1,这些奠基性文献组成了该领域的知识基础。紫色圈关键节点文献有4篇:T. O'Reilly[11]阐述了Web 2.0的由来、架构及应用发展等,指出Web 2.0是UGC模式诞生的平台;H. Jenkins[12]介绍了文化背景下新旧媒体的融合与发展,认为新媒体的产生促进了UGC的发展;C. Anderson[13]引入长尾理论探讨社交媒体商业应用;D. Tapscott[14]基于维基百科的成功,阐述了一种新的商业模式:维基经济学,维基百科是一种用户可编辑的百科,这种用户参与生成内容的机制正是UGC最初的灵感来源。此外,中心度是对网络中任意最短路径流经节点的度量。经统计,中心度大于0.1的共有4篇文献,它们都在基础文献之列,可见它们在该领域的重要链接作用,这些成果为UGC的兴起和快速发展奠定了基础。

表1 国外高共被引知识基础文献

3.2 高被引文献

国内外研究成果被引频次排名前3的文献信息见表2。

表2 国内外高被引文献

A.M. Kaplan[10]阐述了社交媒体的概念、应用及分类,并对企业如何利用社交媒体提出了建议;C. Forman[15]探讨了在线电子市场中消费者发表的评论、产品地理位置信息的披露、商家口碑声誉及网上社区规范对产品销售产生的影响;其他文献研究还涉及UGC用户代理、用户创作的积极性、视频网站体系等。

赵宇翔[16]讨论了UGC中参与者的分类及影响用户生成内容的动因,并构建了用户生成行为动因的整合模型,后续研究以土豆网为例对模型进行了实证检验;徐佳宁[17]探讨了Web 2.0平台下非正式科学信息发布主体、发布行为、发布内容、信息接受和互动方式等过程和特征;其他文献研究内容还包括虚拟社区、商业模式及隐私法律问题等。

综上对比分析,可得到以下结论:

● 表1所列基础文献中没有纯UGC研究文献,大多只涉及其发展的原因和背景,也没有形成以高被引经典学术论文为中心的关键节点,可见该领域学术论文的LCS(local citation score)值很低,研究方向也比较分散。笔者认为产生这一现象的原因有两方面:一是国外研究机构的合作力度和强度较弱;二是尚未形成核心的研究团体来引领主要的研究方向。

● 表2中高被引文献的频次均高于表1中的知识基础文献,但却未在共引图谱中形成关键的抑或高被引节点,说明表2中文献的高被引频次只是表征在GCS(global citation score)值上,在本领域内的核心影响力不足。

● 国内文献被引频次远低于国外,大部分论文在低被引和零被引之间,主要是因为国内研究还处于起步阶段,也与发表论文的平台和论文质量有关。国内学者需进一步加大力度,深化研究,放开眼界,与国际前沿接轨,并注重创新性和实用性。

4 研究热点分析

关键词是文献核心内容的高度凝练,因此常被用来探索一个领域的热点。将处理后的数据导入CiteSpace软件,生成如图2、图3所示的共词图谱,排名前10位的关键词如表3所示:

表3 排名前10位的关键词

图2中形成了 “user generated content”和“model(模型构建)” 两个紫色圈关键节点,与“Web 2.0”、“social media(社交媒体)”、“social networks(社交网络)”、“internet(互联网)”、“system(系统)”等节点共同组成国外热点领域,研究主题包括UGC基础理论与框架、社交网络与行为动因、系统构建以及新媒体应用等。

“用户生成内容(UGC)”、“Web2.0”、“用户行为”、“网络视频”、“互联网”和“新媒体”6个关键节点代表了国内研究热点,涵盖了UGC概念、主体及网络平台等方面。此外,“模型(建模)”、“商业模式”、“移动互联网”、“微内容”、“博客(blog)”及“口碑”等节点也显示出国内对UGC内容分析与评价、商业应用和模型构建的关注度。

图2 国外关键词共现图谱 图3 国内关键词共现图谱

对比国内外研究热点,可得出以下结论:

整体而言,国内外高频主题词都包含 “UGC”、“web 2.0”、“model”、“internet”、“social media”和“user behavior(用户行为)”等,且所占百分比相似,它们代表了国内外研究的交集,反映出了该研究领域的主流方向。

另一方面,国内外研究各有特点和侧重,国外的“system”、“design(设计构建)”、“privacy(隐私权)”、“knowledge management(知识管理)”、“retrieval(检索)”及“folksonomy(自由分类法)” 都未出现在国内高频词中,反映出国外对系统构建、权益法规及知识利用等方面的研究热于国内;“网络视频”、“移动互联网”及“商业模式”等高频词汇在国内的出现比率大于国外,表明国内更重视UGC商业模式及平台应用的研究。

通过对关键词聚类归纳,笔者认为UGC研究热点集中在以下4个层面:

● 概念层面,包括Web 2.0、媒体社会化、数据开放、网络社区等与UGC密切相关的概念,这是本领域的背景知识和基础。A. Armstrong[18]虚拟社区研究,P. B. Brandtz?g[19]的用户类型研究,D. Jessica[20]的UGC发展趋势预测及文献[1]、[3]等都从多角度对UGC的基本理念进行了阐述。

● 方法机制层面,涵盖动因研究、模型设计、信任机制、口碑及用户行为等方向,如蔡淑琴[21]构建超图设计模型探寻UGC产品族设计映射,T. W. Malone[22]采用类型理论探究大众行为模式,文献[2]作者构建结构方程模型探讨生成动因等。这些研究立足模型、方法,引入实证分析,在UGC的内容组织、知识利用和隐性行为挖掘方面做了重要工作。

● 技术层面,包括微内容的分析处理、文本挖掘、设计(design)、系统(system)、机器学习和信息检索与处理等。B. Sriram等[23]提出短文本预分类思想,蒋盛益[24]对微博信息的挖掘技术做了归纳和展望。相关成果从信息技术、算法等角度深入研究了内容挖掘、用户标签、社区发现和情感检测等内容,进一步深化了UGC知识管理的技术驱动。

● 应用层面,涉及社交媒体(如Wikipedia和微博等平台)、移动互联网、电子商务、公共服务、医疗健康和涉法问题等。Ye Qiang等[25]研究了UGC口碑对旅游电子商务的影响,L. Hilton[26]深入分析了医患关系中的UGC评价。此外,还有部分研究探讨图书馆、档案馆、博物馆等公共服务事业与移动互联网和社交网络的整合,部分成果关注UGC内容的版权、隐私和舆论引导等问题。该层面的研究触及多学科领域,但“浅尝辄止”,UGC的社会实践有待进一步加强。

5 研究前沿分析

普赖斯通过对科学引文网络的观察发现被引用最多的文献是新近发表的文章,因而提出了“研究前沿”的概念并以此描述学科研究领域的过渡本质[27];皮尔逊(O. Persson)认为施引文献形成研究前沿,被引文献是知识基础[28];陈超美在2005年提出了新的看法,他认为使用突现主题术语(surged topical terms)要比使用出现频次最高的主题词(tittle words)更适合探测学科发展的新兴趋势和突变情况[4]。

利用CiteSpace提供的膨胀词探测(burst detection)技术运行数据,得到图4所示的研究前沿时区知识图谱。分析突变词和图谱,笔者将研究前沿归为以下四大主题领域:

5.1 UGC知识管理

突变词“knowledge”、“mining”、“information”等从管理和技术两个维度揭示了学者对UGC内容的研究思路。管理层面侧重对UGC理论、方法、规律、模型和机制进行研究,从信息组织、生成动因和生成模式等角度探究了UGC内容的属性、类型、利用、分析框架、知识管理和质量评价,朱庆华教授主持的教育部人文社科项目“Web 2.0环境下用户生成内容激励机制与评价机制的设计及其协同研究”就在管理层面获得了不错的研究成果。在技术层面,随着微博、SNS等社交媒体的出现和发展,互联网上存在大量非结构化数据,研究人员关注探究如何利用短文本挖掘技术、人工标注、话题趋势监测、情感倾向分析、关联数据及协同过滤等技术来获取更深层次的隐性内容。然而,一些基础技术研究仍是短板,例如词加权方法、可视化和主题聚类分类等,从技术层面研究如何从信息中挖掘知识仍将是热点。蔡淑琴教授主持的国家自然科学基金项目“微内容生产加工模式及其支持平台的研究”已率先进行探索。

5.2 UGC信息传播模式及其关系网络挖掘

传播模式的讨论涉及传播结构、传播路径、用户影响力干扰、节点判定和模型构建等方面,突变词“collaboration”和“model”代表了传播模式中模型的构建和用户协作及其影响。关系挖掘范畴主要是基于用户间相互关注和信息传递形成的关系网开展的研究,应用计算机智能技术通过发现社区和识别评估意见领袖,同时引入复杂网络理论、社会网络分析技术等探讨用户节点和关系结构,正如突变词“community”、“design”和“systems”等所代表的内涵,大数据时代背景,大规模、高动态、错综复杂的关系网有待更深入的探究,网络可视化的呈现也将成为重要的研究方向。

5.3 UGC商业应用

社交网络的兴起带来无限商机,相关商业模式的探索更是强有力地推动了SNS的迅速发展,突变词“social media”、“social networks”、“e-commerce”及“Twitter”等,让我们相信UGC必将为社交媒体应用平台、个性化推荐、电子商务、产品营销、旅游和企业公关等商业领域带来新的活力和生机,叶强教授主持的国家自然科学基金项目“在线UGC的管理分析及其对电子商务的影响研究”已经开启了该主题的系统化研究工作。

5.4 UGC社会服务

迅捷、用户量大、交互性强和涉及面广的UGC,给传统医疗和教育领域带来了新的交互理念,也挑战了传统新闻媒体的传播机制。去年微博频频爆出的“焦点新闻”让我们感受到新媒体时代“长尾部分”中不知名用户的影响力正在逐步提升,正如突变词“news”和“opinion”等所预示的,UGC将在政府监督、电子政务、医疗健康、社会教育、公共服务和突发性事件网络舆情等方面发挥重要作用。而突变词“privacy”揭示了UGC模式带来的社会问题,需进一步探讨和完善UGC领域的隐私保护、法规政策和伦理道德。

图4 国外UGC研究前沿时区知识图谱

6 结语

国外学术界对UGC的研究领先于国内,研究主题也渗透计算机科学、管理工程、商学、新闻学和心理学等领域,但是主题较为零散,缺乏核心力。国内研究尚处于起步阶段,呈现出应用探索热于基础理论研究的特点。本文在一定程度上揭示了UGC领域的发展现状,但是也存在一些局限与不足:如新发表的优秀论文由于被引率暂时较低,而无法在图谱中充分展示;业界对CiteSpace软件阈值的设置缺乏统一的标准,只能根据主观理解、判断和不断调试。这些方面都需要在后续研究中进一步完善,也值得业界进一步深入探讨。

[参考文献]

[1] OECD.Participative Web and user-created content: Web2.0, wikis and social networking edition complete[EB/OL]. [2012-10-21].http://www.oecd.org/document/40/0,3746,en_2649_34223_39428648_1_1_1_1,00.html.

[2] 范哲,朱庆华,赵宇翔. Web 2.0环境下UGC研究述评[J].图书情报工作,2009,53(22):60-63.

[3] 赵宇翔,范哲,朱庆华.用户生成内容(UGC)概念解析及研究进展[J].中国图书馆学报,2012(5):68-81.

[4] Chen Chaomei. CiteSpace II: Detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science and Technology, 2006, 57(3):359-377.

[5] Cha M, Kwak H, Rodriguez P, et al. I tube, you tube, everybody tubes: Analyzing the worlds largest user generated content video system[C]//Proceedings of the 7th ACM SIGCOMM conference on Internet measurement. New York :ACM, 2007: 1-14.

[6] ?rnebring H. The consumer as producer—of what? User-generated tabloid content in The Sun (UK) and Aftonbladet (Sweden)[J]. Journalism Studies, 2008, 9(5): 771-785.

[7] Golder S A, Huberman B A. Usage patterns of collaborative tagging systems[J]. Journal of Information Science, 2006, 32(2): 198-208.

[8] Mathes A. Folksonomies-cooperative classification and communication through shared metadata[EB/OL].[2012-10-21].http://adammathes.com/academic/computer-mediated-communication/folksonomies.pdf.

[9] Hermida A, Thurman N. A clash of cultures: The integration of user-generated content within professional journalistic frameworks at British newspaper websites[J]. Journalism Practice, 2008, 2(3): 343-356.

[10] Kaplan A M, Haenlein M. Users of the world, unite! The challenges and opportunities of Social Media[J]. Business horizons, 2010, 53(1): 59-68.

[11] OReilly T. What Is Web 2.0: Design patterns and business models for the next generation of software[EB/OL].[2012-10-21].http://oreilly.com/web2/archive/what-is-web-20.html.

[12] Jenkins H. Convergence culture: Where old and new media collide [M].New York: NYU Press,2006.

[13] Anderson C . The long tail: Why the future of business is selling less of more [M]. New York: Hyperion Books,2006.

[14] Tapscott D. Wikinomics: How mass collaboration changes everything [M]. New York: Portfolio Hardcover,2006.

[15] Forman C,Ghose A,Wiesenfeld B. Examining the relationship between reviews and sales: The role of reviewer identity disclosure in electronic markets[J].Information Systems Research,2008,19(3):291-313.

[16] 赵宇翔,朱庆华. Web 2.0环境下影响用户生成内容的主要动因研究[J].中国图书馆学报,2009,35(5):107-116.

[17] 徐佳宁.基于Web 2.0的非正式科学交流过程及其特点[J].情报科学,2008,26(1):53-59.

[18] Armstrong A, Hagel J. The real value of online communities [EB/OL]. [2012-10-21]. http://hbr.org/1996/05/the-real-value-of-on-line-communities/ar/1.

[19] Brandtz?g P B. Towards a unified Media-User Typology (MUT): A meta-analysis and review of the research literature on media-user typologies[J]. Computers in Human Behavior, 2010, 26(5): 940-956.

[20] Jessica D. Meet generation C: Creatively connecting through content[EB/OL]. [2012-10-21]. http://www.econtentmag.com/Articles/Editorial/Feature/Meet-Generation-C-Creatively-Connecting-Through-Content-35942.htm.

[21] 蔡淑琴,马玉涛,肖泉,等. 基于超图设计模型的用户创造内容产品族设计映射研究[J].情报学报,2011,30(4):387-394.

[22] Malone T W, Laubacher R, Dellarocas C. Harnessing crowds: Mapping the genome of collective intelligence[EB/OL]. [2012-10-21]. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1381502.

[23] Sriram B, Fuhry D, Demir E, et al. Short text classification in twitter to improve information filtering[C]//Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval. ACM, 2010: 841-842.

[24] 蒋盛益,麦智凯,庞观松,等. 微博信息挖掘技术研究综述[J].图书情报工作,2012,56(17):136-142.

[25] Ye Qiang, Law R, Gu Bin, et al. The influence of user-generated content on traveler behavior: An empirical investigation on the effects of e-word-of-mouth to hotel online bookings[J]. Computers in Human Behavior, 2011, 27(2): 634-639.

[26] Hilton L. Of ‘e-repute: Experts weigh in on how to manage negative online reviews[EB/OL]. [2012-10-21]. http://trove.nla.gov.au/version/166732241.

[27] Price D. Networks of scientific papers [J]. Science,1965(149):510-515.

[28] Persson, O. The intellectual base and research fronts of jasis 1986 -1990[J]. Journal of the American Society for Information Science,1994,45(1):31-38.