APP下载

利用HistCite对大数据领域文献进行可视化分析的研究

2016-11-16陆和建周海晨徐从平

大学图书情报学刊 2016年5期
关键词:编年著者链条

陆和建,周海晨,徐从平,李 杨

(安徽大学管理学院,合肥 230039)



利用HistCite对大数据领域文献进行可视化分析的研究

陆和建,周海晨,徐从平,李 杨

(安徽大学管理学院,合肥 230039)

文章以2004-2015年WOS数据库平台中4860条大数据领域文献记录为样本,借助引文可视化分析工具HistCite对大数据领域文献出版时间、重要期刊以及重要著者进行统计分析,并生成该领域引文编年图。研究结果显示:商业中对于消费者、企业自身分析预测需求,多个学科领域信息挖掘技术研究探讨,以及对大数据的反思被大量关注。

大数据;HistCite;引文分析;引文编年图;可视化分析

1 引言

近年来,大数据概念引起了国内外政府、商界以及学术团体的广泛关注。美国和中国等国先后将大数据提升到国家战略层次[1-2],各行各业都开始利用大数据或涉足大数据领域业务,各领域的专家学者们更是热烈地讨论了在大数据背景下如何面对挑战与寻找机遇。大量与大数据领域相关的文献由此产生,亟需全面而客观地分析其发展历程,梳理其研究的演变路径,以期获得更为稳健的发展。

选用文献计量学中的引文分析法,通过引文可视化分析工具HistCite[3],将Web of Science(WOS)数据库平台中与大数据研究领域相关的文献数据导入其中,分析大数据研究领域的核心文献与著者,绘制大数据领域引文编年图,揭示其发展的轨迹与研究现状。

2 数据来源与研究方法

2.1 数据来源

笔者接下来进行的可视化分析所采用的数据全部来源于Web of Science数据库平台,检索策略为“TM=“big data””,时间跨度为“所有年份”(检索时间为2015年11月16日),数据库为Web of ScienceTM核心集合中的SCI-EXPANDED(科学引文索引扩展版) 、SSCI(社会科学引文索引) 、CPCI-S(科技会议论文引文索引)。检索结果包含4860条文献记录,数据下载的记录内容为“全记录与引用的参考文献”,文件格式为“纯文本”,最终录入HistCite,得到的最终结果为3943条。

2.2 引文分析工具与方法

文献作为知识的载体,彼此之间的联系主要体现在相互引用上,这使得海量的文献成为一个整体,让知识得以传播、交流与积淀。引文分析便是建立在这样的基础之上,让专家学者更好地理清知识的脉络,顺着脉络去回顾发展的历史,探索未来的道路[4]。

笔者采用的引文分析工具为HistCite,一款由汤森路透集团的创始人尤金·加菲尔德发明的引文分析工具。其最大的特点在于能通过图示展示某一领域文献之间的关系,帮助使用者绘制出一个领域的发展历史(引文编年图),定位出该领域的重要文献[5]。

本文将涉及并进行计量的主要指标有:著者、出版年、机构、出版来源、LCS(本地被引次数)、GCS(总被引用次数)等。LCS是指在当前载入的文献数据集合中被引用的总次数,GCS是指在WOS中被引用的总次数。一篇文献的LCS越高,代表其影响力越高,GCS高则说明被世界许多专家学者所关注。当出现GCS高而LCS低,则表明这种关注并不来源于本领域的专家学者,也间接说明这篇文献的参考意义可能不大[6]。

3 数据统计与分析

笔者将WOS导出的4860条文献记录录入HistCite引文分析工具中,得到记录3432条。文献分布在2004—2015年,一共涉及到11030位著者,1715种期刊,88449篇被引文献,5620个关键词,LCS为1503,GCS为6873。

3.1 大数据领域文献出版时间分布

图1为大数据领域文献引文数量图,从中可以看出大数据领域出版的文献数量呈现爆炸性增长态势(2015年数据不完整不作分析依据),2012年被视作爆发性的一年。与文献数量的增长不完全同步,文献的总被引频次在2008年经历了一个小高潮,随后回落并继续呈现增长态势。通过HitCite软件分析后,可知2008年两篇文献为当年的被引频次做出最主要贡献:分别是Howe D于2008年发表在《NATURE》上的“Big data: The future of biocuration”以及Lynch C于同年刊登在同一本期刊上的“Big data: How do your data grow?”。

图1

3.2 大数据领域重要期刊分布

一般来说,期刊的学术水平高低以及影响力强弱可以根据期刊在某领域的被引频次进行判断。笔者利用HistCite引文可视化分析工具,参照期刊在当前载入的文献集合中的被引频次排序,选择前10名,作为大数据领域的核心期刊。表1中居第一位的是《自然》,排第二位的期刊是《哈佛商业评论》,第三位则是《信息通讯与社会》。从排名前10位的重要期刊名称中,可以了解大数据被哪些学科及研究领域所关注,并且这10种期刊基本构成了大数据领域研究的核心期刊雏形。

表1 大数据领域重要期刊引用频次排序表

3.3 大数据领域重要著者分析

由于当前关于重要著者的选取尚存在争议,较为常用的是利用著者发文数量或者被引频次进行判断[7]。本文按照论文被引频次高低来进行重要著者的排列,在HistCite中对11030位著者按照TLCS排序得到表2——著者发文被引频次前10排序。

表2 大数据领域重要著者引用频次排序表

通过分析可以得知,高引文著者中有三个清晰的聚类,其中1号聚类团是来自伍伦贡大学的Crawford K与纽约大学的Boyd D两位著者。合著文章为2012年发表于《Information Communication & Society》的“Critical questions for big data——Provocations for a cultural, technological, and scholarly phenomenon”。著者们前瞻性地指出了在大数据时代背景下可能面临的来自文化、科技、学术等方面的困难与挑战,以及由此所产生的疑惑。

2号聚类团由来自亚利桑那大学的Chen HC、辛辛那提大学的Chiang RHL以及乔治亚州立大学的Storey VC。前两位本科均毕业于台湾交通大学。Chen HC的研究领域十分广泛,跨越数据挖掘、知识管理、数字图书馆、国土安全、网络计算和生物信息学。他是10个杂志的编委会成员,曾担任美国国家医学图书馆、中国台湾“中央研究院”的科学顾问。合著文章为2012年发表于《Mis Quarterly》的“Business Intelligence and Analytics: From Big Data to Big Impact”。该文章对BI&A(商业情报分析)进行定义与描述,研究分析了BI&A所面临的挑战与机遇,并对长达十年的相关文献、研究人员、研究主题以及学术和行业出版物进行统计分析。

3号聚类团成员人数众多,有俄勒冈大学的Howe D,斯坦福大学的Costanzo M,美国西北大学的Fey P,以及日本国立遗传学研究所的Gojobori T。著者首次提出了“生物文献数据结构化”的概念,倡导数据结构化进行生物文献信息的规范,目的在于提升生物学信息的获取率和使用率,这是大数据研究在生物学学科得到广泛关注的标志。

4 引文编年图分析

HistCite引文分析工具的最大特点是根据载入文献的出版年份、被引用频次、引用关系进行引文编年图的绘制,将某领域的发展历史清晰地展现在使用者面前。打开主界面上方“Tools”选项下的“Graph Maker”按钮即可进入文献的引文编年图界面。绘制前的设置有两个关键步骤:(1)选择GCS或者LCS;(2)阈值的选择。本文研究以LCS对文献记录排序, 阈值设置为30,表明选取前30条记录,将字体大小调整到合适大小,单击“Make graph”即可得到大数据领域的引文编年图。图中每一个单位的圆圈表示一篇文献,圈内数字代表该文献在文献集合中的序号。文献被引频次多少则通过圆圈大小表示,被引频次多的文献圆圈面积也大。圆圈间的箭头相连,表明文献间存在引用关系,箭头指向文献为被引用文献。

图2 大数据引文编年图(LCS-count30)

图2中可以观察出存在3个印证关系链条。其中引证关系链条1是由324、325、344、1315、2673文献组成;引证关系链条2则是由26、29、45、59、287、319、2544、2959文献组成。引证关系链条3由222与1011文献组成。三者之间不存在明显的引证关系。分析文献得知,引证关系链条1主要研究了大数据背景下数据分析、情报分析、数据分析师等对于商业社会的重要性以及反思,比如Google以及其他的一些企业。引证关系链条2主要体现大数据在科学研究中的发展进程。图中存在较多孤立的文献节点,并且2013、2014两年的引用关系较少,这并不意味着最近几年关于大数据领域的研究不多,其研究趋势正如图1所示,发文量较多,但由于近期文献的出版时间不长,所以到目前被引用的次数还没有被记录。

根据引文编年图,最早的文献出版于2008年,这一年一共出版了4篇文献,全部来自于《Nature》以大数据为主题的第455期期刊。分别为:25号“Big data: Wikiomics”、26号“Big data: How do your data grow?”、27号“Big data: Distilling meaning from data”以及29号“Big data: The future of biocuration”。以上4篇文章对于大数据后续的兴起与发展奠定了坚实的基础,也是图1中出现被引频次小高潮的直接原因。

2009-2011年,文献节点数量较少。一共只绘制出4个单位文献,分别是:45、59、66以及70。45属于引证关系链条2,是2009年Jacobs A于《Communications Of The Acm》上出版的“The Pathologies of Big Data”,文中研究了大数据的起源、发展,指出了“大数据”的相对性,对于大数据现象的出现进行了思考。59也属于引证关系链条2,是2010年Schadt EE于《Nature Reviews Genetics》上出版的“Computational solutions to large-scale data management and analysis”,著者认为当今技术环境逐渐成熟,讨论了在不同的计算环境中如何处理大数据问题。66是He YQ在2011年第27届IEEE国际工程会议上发表的“RCFile:A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems”,是中国作者为数不多的文献,著者以Facebook为例总结出数据分布结构的四点必备条件,并且依据四点条件提出RCFile结构。70是Lavalle S在《MIT Sloan Management Review》发表的“Big Data, Analytics and the Path From Insights to Value”。

2012年文献节点的数量开始增加,引证关系也主要集中在当年。324、325、344属于引证关系链条1;319、287属于链条2;222属于链条3。344“Business Intelligence and Analytics: From Big Data to Big Impact”在上文已有提及;324“Strategy & Competition Big Data: The Management Revolution”与325“Data Scientist: The Sexiest Job of the 21st Century”均指出数据挖掘人才对于企业的重要性以及迫切性;287“Us Science Policy Agencies Rally to Tackle Big Data”站在美国政府以及科研机构的角度来探讨大数据问题;222“Critical Questions For Big Data Provocations for a cultural, technological, and scholarly phenomenon”将大数据作为一种社会热点话题,讨论其对生活带来的便利以及可能对社会产生的负面影响。

2013年的文献节点中存在两个被引频次多且孤立的节点,1275“The Inevitable Application of Big Data to Health Care”,文献讨论了大数据对于医疗的必要性;1324“The Big Challenges Of Big Data”再次强调了生物领域对于大数据的需求。

2014年的文献节点数量有所下降,最主要原因是文献发布时间较短,被引频次数量少。值得注意的是文献2673,由Lazer D 在《Science》发表的“The Parable of Google Flu: Traps in Big Data Analysis”,虽然刊登只有一年时间,但其被引频次达到30次,文章从Google公司利用大数据做出的流感趋势的误判为例,解释了大数据分析背离事实的原因(大数据傲慢以及算法变化),指出数据的“大小”并不等于数据的价值,关键在于更好地利用数据分析方法。

5 结语

利用HistCite引文分析工具,通过对WOS数据库平台中2004-2015年收录的以大数据为主题的4860篇文献绘制引文编年图,呈现出大数据领域文献的发展轨迹。从2004年出版第一篇文献,到2008年对大数据在各领域的研究逐渐成为热点,到如今社会广泛讨论与实践应用,大数据的发展经历了一个犹如婴儿发育的过程:爬行、直立、行走。引证关系链条1与2,也从引文的角度反映出大数据领域发展的两条主线:

(1)商业中对于消费者、企业自身分析预测需求。大数据所蕴含的的巨大价值对各行各业都是新的机遇与挑战,可以预计“数据”的收集与利用将成为无论是制造业、IT业还是金融业抢夺的下一座高峰。如何有效地从海量数据当中筛选出关键信息以供决策者使用,将会是企业持续获得竞争力的重要手段。伴随着带来巨大利益的可能性,商业领域的大数据研究会获得持续密切的关注。

(2)多个学科领域的信息挖掘技术研究探讨以及对大数据的反思。商业领域的应用研究必须以理论研究为基础前提。多学科、跨学科间的大数据研究是在概念、特点、机遇与挑战等基础性研究发展后的必然性产物,研究将朝着广度与深度发展,相关理论研究日益系统化。

可以预计,未来关于数据处理技术的研究、跨学科领域的实践应用以及商业领域的预测分析,将会继续成为大数据领域研究热点。

[1] 国务院.国务院关于印发促进大数据发展行动纲要的通知[EB/OL].[2015-11-16].http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

[2] Office of Science and Technology Policy Executive Office of the President.Obama Administration Unveils Big Data Initiative Announces $200 Million in New R&D Invest- ments[EB/OL].[2015-11-16].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release.pdf.

[3] 张月红.HistCite——一个新的科学文献分析工具[J].中国科技期刊研究,2007(6):1096.

[4] Cronin B.The Need for A Theory of Citing[J].Journal of Documentation,1981,37(1):16-24.

[5] 田军.信息可视化分析工具的比较分析——以CiteSpace、HistCite和RefViz为例[J].图书馆学研究,2014(14):90-95,54.

[6] 罗昭峰.引文分析软件histcite简介[EB/OL].[2015-11-16].http://blog.sciencenet.cn/home.php?mod=space&uid=304685&do=blog&id=383399.

[7] 刘丽.基于HistCite的图书馆服务领域引文脉络分析[J].情报科学,2014(5):91-96,101.

(责任编辑:孟凡胜)

Visualized Analysis of Literature in the Big Data Based on HistCite

LU He-jian, ZHOU Hai-chen, XU Cong-ping, LI Yang

(Anhui University,Hefei 230039,China)

This paper, taking 4860 documentary records in the big data in 2004-2015 WOS database as samples, conducts statistic analysis of the publishing time, important journals, and important authors of documents in the big data with the help of citation visualized analysis tool HistCite, and generates citation chronicle diagram in this field.The research results show that demand for the analysis and prediction of consumers and enterprises themselves upsurge.At the same time, great attention was paid to the research and discussion of information mining technology used in various fields of study and reflections in the big data.

big data; HistCite; citation analysis; citation chronicle diagram; visualization analysis

G353.12

A

1006-1525(2016)05-0101-05

陆和建,男,教授,博士生导师。

2016-02-18

猜你喜欢

编年著者链条
贵州土司史籍编年系列总序
个性链条
索尼微单TM相机编年册
链条养护好帮手: 5款链条油推荐
《第二胜者法王宗喀巴传》著者考
参考文献著录时“等”的西文应使用“et al.”
产业链条“链” 着增收链条
苏词编年百年回顾与反思
参考文献著录规范
参考文献著录规范