不同子领域间的技术魅力研究:以大数据技术为例
2017-06-27陈能美彭建文赵清俊
陈能美+彭建文+赵清俊
摘 要 论文以WoS数据库的引文数据为基础,根据大数据技术不同子领域间论文的相互引用情况构建了不同子领域的技术魅力指数,从而分析大数据技术在不同领域间的技术交互作用、扩散态势。研究发现大数据技术在Computer Science领域最受欢迎,其次为Engineering领域,在Telecommunications等领域也比较受欢迎。
关键词 大数据 技术魅力指数 技术扩散
分类号 G250.7
DOI 10.16810/j.cnki.1672-514X.2017.05.×××
Abstract Based on the citation data of WoS database, this paper constructs technology charm indexes among different subfield according to the mutual citation relations among different subfield in the big data research field, so as to analyze the interaction relation, and the technology diffusion situation among these subfield. It finds that computer science is the most popular field, followed by engineering, and other fields like telecommunications are relatively popular.
Keywords Big data. Technology charm indexes. Technology diffusion.
引 言
2012年2月《纽约时报》刊登的一篇专栏中称,“大数据”时代已经降临,商业、经济等众多领域的决策将日益依赖数据和分析[1]。在2013年,众多国家先后出台激励政策促进本国大数据处理技术的研发,进而掀起了大数据研发的热潮[2],各国抢抓战略布局,不断加大扶持力度,全球大数据市场规模保持着高速增长的态势。2015年谷歌的开源TensorFlow人工智能项目,促进了大数据技术、人工智能领域的发展,随着开源技术的发展,企业进军大数据领域的门槛逐步降低,加之数据量的规模化增长和应用场景的越发丰富,越来越多的企业加入了大数据掘金浪潮,创业企业不断涌现,互联网巨头和传统IT厂商加速投资并购以争夺市场领袖地位。对于整个大数据行业而言,经过数年的发展,在工业应用和学术理论价值等方面已日趋完善。大数据技术进入了从概念炒作向实际应用的关键转折期,面向不同行业的特色需求和用户的个性化需求,企业加快了技术、产品和应用模型的迭代速度,大数据市场竞争愈加激烈;对于学术理论方面,这些年相关的理论研究文献也成指数增长。大量的理论研究文献的发表,为大数据技术的实际应用提供了科学的依据,推动着大数据技术的进步与完善。而今,大数据技术的发展和应用也呈现出跨学科交叉发展的特点,研究大数据技术在不同领域之间相互交叉的现状,能为大数据技术发展提供新的思路。大量的文献表明,当前研究大数据技术领域常见的主题词主要集中在big data(大数据)、big science(大科学)、cloud computing(云计算)、cyberinfrastructure(基础构架)、computational science(计算科学)、Hadoop、MapReduce(分布式计算)、NoSQL(数据库)等。
广大的研究人员做了大量的大数据技术研究工作。赵蓉英等人从计量学的视角对我国人文社会科学领域的大数据研究热点进行了挖掘与分析,证实了从计量学的角度去研究大数据研究热点的可行性[3],李恬研究了图书馆大数据,给出了数据挖掘、数据分析的重要性[4]。随着大数据技术应用的深入,关于大数据技术的研究出现了各大领域学科的交叉性、研究领域的广泛性等新特点。了解当前大数据技术的研究进展以及各学科的交叉分布特性,探讨不同子领域间的技术魅力,将对大数据技术的发展起重要作用。
2 数据来源与研究方法
2.1 数学模型
2.2 数据来源与检索规则
在引文分析研究领域,数据质量和数量是研究分析的基础,它直接影响着研究内容的科学性和结果的可信度,选择合适的数据源和检索方式对分析起着至关重要的作用[5-8]。本文选择了美国科学情报研究所出版的国际权威引文数据库Web of Science(WoS)作为数据源,经过多次检索试验和采用权威作者、机构进行验全、准确率验证,最终确定的检索方式为:TS=("big data" OR "big science" OR "cloud computing" OR "cyberinfrastructure" OR "computational science"OR"Hadoop" OR "MapReduce" OR "NoSQL"),文献语言类别为英语,时间跨度从1995-2015年,文献检索结果总计21145篇。在此结果下分不同的领域对一次检索结果进行多次检索分析,结合WoS数据库中Meeting(会议论文)、Article(文章)、Editorial Material(文献类型)、Review(综述)、Meeting(会议)、Abstract(摘要)等类别的不同研究领域作为研究分析的数据来源。
2.3 研究方法
荷兰莱顿大学的Moed教授[8]曾指出,只有当文献计量学指标具备了足夠先进的技术水平,且人们对文献计量学指标的自身缺陷有了足够的认识,并将这些指标与其他更多的定性评价信息相结合,文献计量学指标才能成为科研绩效评价的有效工具,而学科间发展具有相互的交叉性、科学家研究行为的社会性、学科发展所处的阶段性等特点[9,10]。李江等人采用文献计量学的方法对国内外文献计量学者的学术偏好进行了比较研究[10],本文为了更好地研究大数据技术文献在不同领域相互引用的情况,并描述不同子领域间的技术魅力分布,在WoS数据库中采用检索式为TS=("big data" OR "big science" OR "cloud computing" OR "cyberinfrastructure" OR "computational science" OR "Hadoop" OR "MapReduce" OR "NoSQL")的方式进行检索,选择Meeting(会议论文)和Article(文章)两类级别中关于大数据技术的前5个研究方向文献作为研究对象。
3 结果与分析
3.1 总体类别分布情况
用本文的检索方式检索出21145篇文献,主要文献的具体分布情况如下:
根据上表1和图1中的数据显示,在WoS数据库中20年内关于大数据的研究成果中Meeting(会议论文)数量为12510篇,Article(文章)数量为7316,这两类的文献总数19826篇。为了使研究的数据源具有科学性,选择相应领域所占总文献比率较大的类别作为研究对象,Meeting(会议论文)和Article(文章)两类分别占据大数据技术相关文献的59.17%和34.61%,于是将研究的文献类型设定Meeting(会议论文)和Article(文章)两类。
在这两大类文献中,主要取排名前五的类别,具体情况如表2所示。分别在这五大类别中检索主题“TS=("big data" OR "big science" OR "cloud computing" OR "cyberinfrastructure" OR "computational science" OR "Hadoop" OR "MapReduce" OR "NoSQL")”,然后统计各类别下研究文献的分布情况,并把这些数据作为研究对象,探讨大数据技术不同领域互引研究现状。
按照检索式进行条件检索并去除自引以后,Meeting(会议论文)和Article(文章)主要的研究领域分布为Business Economics(商业经济学)、Computer Science(计算机科学)、Engineering(工程)、Mathematics(数学)、Telecommunications(电信学),其具体情况如图2所示。
3.2 技术受欢迎指数
根据上文所述的方法对WoS数据库中记录以上主题词的文献进行检索查询,并除去自引的施引文献,其主要的结果如下表2和表3所示:
从Meeting(会议论文)方式收录的大数据技术的文献分布可以看出:大数据技术的应用主要集中在Computer Science(计算机科学)、Telecommunications(电信学)、Engineering(工程)三大研究方向,其余研究领域的大数据技术受欢迎指数很小;而Article(文章)方式收录的大数据技术的应用主要分布在Mathematics(数学)、Computer Science(计算机科学)、Engineering(工程)、Telecommunications(电信学)等研究方向。对于两种方式收录的文献情况的比较,如图3所示。
具体而言,从以Meeting(会议论文)方式发表的文献来看,大数据受欢迎的领域排名为Computer Science(计算机科学)>Engineering(工程)> Telecommunications(电信学)>Mathematics(数学)> Business Economics(企业经济学)。从以Article(文章)方式发表的文献来看,大数据受欢迎的领域排名为Computer Science(计算机科学)>Mathematics(数学)>Engineering(工程)>Telecommunications(电信学) >Business Economics(企业经济学)。
本文对Meeting(会议论文)和Article(文章)方式发表的文献情况进行了比较,从图3中可以看出:以Article(文章)方式发表的大数据技术的文献在各个领域中都比以Meeting(会议论文)方式发表的文献受欢迎,而且在Mathematics(数学)领域,Article(文章)方式发表的文献比Meeting(会议论文)方式发表的文献受欢迎指数要多出数倍。对于大数据技术的理论方面的文献则集中以Article方式进行发表。
为了更深入地探究大数据技术相关研究方向的分布情况,本文选取表2和表3的五大类作为研究的基本对象,去除自引后进行统计分析。其中,Business Economics(企业经济学)领域的文献,主要应用于Business Economics(企业经济学)、Computer Science(计算机科学)、Engineering(工程)、Information Science Library Science(图书馆情报科学)等研究方向,在这些研究方向中,以Article(文章)方式发表的文献明显比以Meeting(会议论文)方式发表的文献受欢迎,20年间引用Business Economics(企业经济学)领域文献最多的为Computer Science(计算机科学)方向,且大量的文献是以Article(文章)方式发表,如图4所示。
Business Economics(企业经济学)研究领域的文献,主要在其他7大研究领域比较受欢迎,这些研究领域中最受欢迎的是Computer Science(计算机科学)领域,占了总量的54.34%,其次是Engineering(工程)领域,占了总量的18.77%。可见,Business Economics(企业经济学)领域的大数据技术在Computer Science(计算机科学)领域很受欢迎。
图5中,展示了当前以Article(文章)和Meeting(会议论文)收录的Computer Science(计算机科学)领域大数据研究在其他领域受欢迎的情况,上图中该领域的文献在Computer Science(计算机科学)、Engineerings(工程)、Automation Control Systems(自动化控制系统)、Telecommunications(电信学)、Mathematics(数学)、Genetics Heredity(遗传学)等研究方向很受欢迎,在这些领域中文献主要以Meeting(会议论文)方式发表,而当前以Article(文章)方式发表的文献中,最受欢迎的是Engineerings(工程)领域,高达1509篇。Computer Science(计算机科学)领域中应用于Engineerings(工程)领域的文獻占了全部引用的44.15%,其次是Computer Science(计算机科学)领域,占了全部引用的34.19%。可见,Computer Science(计算机科学)领域的文献在Engineerings(工程)领域中很受欢迎。
图6中,展示了当前以Article(文章)和Meeting(会议论文)收录的Engineering(工程)领域大数据研究在其他领域受欢迎的情况,上图中该领域的文献被引用到了Automation Control Systems(自动化控制系统)、Computer Science(计算机科学)、Engineerings(工程)、Telecommunications(电信学)、Mathematics(数学)、Environmental Sciences Ecology(生态环境科学)等研究方向和相关领域,在这些领域中大数据技术文献主要以Meeting(会议论文)方式发表,而当前以Article(文章)发表的大数据技术相关文献中,Engineering(工程)领域比重最大。该领域被应用于Computer Science(计算机科学)领域的文献占了全部引用的66.33%,其次是Engineering(工程)领域,占了全部引用的16.92%。可见,Engineering(工程)领域的大数据技术文献在Computer Science(计算机科学)领域比较受欢迎。
图7中,展示了当前以Article(文章)和Meeting(会议论文)收录的Mathematics(数学)领域大数据技术在其他领域受欢迎的情况,上图中该领域的大数据技術相关的文献在Biochemistry Molecular Biology(生物化学及分子生物学)、Computer Science(计算机科学)、Environmental Sciences Ecology(生态环境科学)、Evolutionary Biology(进化生物学)、Genetics Heredity(基因遗传)、Engineerings(工程)、Mathematics(数学)等领域比较受欢迎,这些领域中的文献大多以Article(文章)方式发表,而当前以Article(文章)发表的文献在Computer Science(计算机科学)领域最受欢迎,有295篇。该领域中被应用于Computer Science(计算机科学)领域的文献占了全部引用的80.16%,其次是Biochemistry Molecular Biology(生物化学及分子生物学)领域,占了全部引用的11.14%。可见,Mathematics(数学)领域的大数据技术文献在Computer Science(计算机科学)领域很受欢迎。
图8中,展示了当前以Article(文章)和Meeting(会议论文)收录的Telecommunications(电信学)领域大数据技术文献在其他领域受欢迎情况,上图中该领域的文献在Computer Science(计算机科学)、Engineerings(工程)、Mathematics(数学)、Science Technology Other Topics(科学技术其他主题)、Telecommunications(电信学)、Optics(光学)、Health Care Sciences Services(卫生保健科学服务)等研究方向和相关领域比较受欢迎,在这些领域中文献大多以Article方式发表,而当前以Article(文章)形式发表的文献中,最受欢迎的是Telecommunications(电信学)领域,有955篇。文献总体分布中,Computer Science(计算机科学)领域占到该方向总文献的41.7%,其次为Telecommunications(电信学)领域,占了该领域总文献的37.14%,可见,Telecommunications(电信学)领域的文献在Computer Science(计算机科学)领域非常受欢迎。
3.3 技术魅力指数
上文对各个领域的单一引用情况进行了总体的概述和分析,得知大数据技术的文献互引主要集中在Business Economics(企业经济学)、Computer Science(计算机科学)、Engineering(工程)、Mathematics(数学)、Telecommunications(电信学)这五大研究领域,为了更加具体地量化大数据技术在各领域的受欢迎情况,现对以上结果深入量化建模分析。具体的计算根据式(2)进行,然后按照式(3)给出的方式进行评价。
3.3.1 Meeting类别中各领域的技术魅力指数
通过式(2)中给出的定义并结合WoS中的数据,对以Meeting(会议论文)方式发表的文献进行分析,计算各领域中技术互引魅力指数,具体如表4所示。
上表中给出了Computer Science(计算机科学)、Engineering(工程)、Mathematics(数学)、Telecommunications(电信学)领域相互受欢迎情况的评价指标,在这些领域中Computer Science(计算机科学)对Engineering(工程)领域的f值为0.441、Computer Science(计算机科学)对Mathematics(数学)领域的f值为1.614、Computer Science(计算机科学)对Telecommunications(电信学)领域的f值为0.535等。其中,Telecommunications(电信学)对Engineering(工程)领域的互引约等于1,即这两个领域的互引偏好相似,体现出这两个领域技术魅力相当;而Engineering(工程)对Mathematics(数学)领域的互引f值为4.167,即Mathematics(数学)方向的文献在Engineering(工程)领域受欢迎情况是Engineering(工程)领域在Mathematics(数学)领域受欢迎情况的4倍左右,Engineering(工程)对Mathematics(数学)领域的技术魅力单向偏好尤为严重。
综上,在过去20年关于大数据技术的文献中,以Meeting(会议论文)方式发表的文献在Engineering(工程)和Telecommunications(电信学)领域技术魅力相当;而Engineering(工程)和Mathematics(数学)领域中,Engineering(工程)领域的技术对Mathematics(数学)表现出技术魅力单向偏好;Computer Science(计算机科学)和Mathematics(数学)、Computer Science(计算机科学)和Telecommunications(电信学)领域f值约等于1,表现出技术魅力相当的特性。
3.3.2 Article类别中各领域的技术魅力指数
按照上述的方法对以Article(文章)方式发表的文献进行分析,将三大领域的相互受欢迎情况概括为以下几类,如表5所示。
上表中体现了以Article(文章)形式發表的文献在常见领域的相互受欢迎f值情况,主要包含了Computer Science(计算机科学)、Engineering(工程)、Telecommunications(电信学)三大领域。其中Computer Science(计算机科学)领域对Telecommunications(电信学)领域、Engineering(工程)领域对Telecommunications(电信学)领域、Telecommunications(电信学)领域对Computer Science(计算机科学)领域、Telecommunications(电信学)领域对Engineering(工程)领域的f值分别为1.018、0.985、0.983、1.016,都约等于1,表现出这些领域的技术魅力相当的特性。
综上,对于Article(文章)形式发表的文献,在Computer Science(计算机科学)、Engineering(工程)、Telecommunications(电信学)领域的技术魅力分布差异性较小。
3.3.3 总体领域中的技术魅力指数
为了更加全面地体现大数据技术在WoS数据库中的研究现状,全面地解析大数据技术在各领域中的技术魅力分布特性,现将Article(文章)方式和Meeting(会议论文)方式发表的文献按受欢迎领域进行统计,然后将同一领域的文献进行求和并按照上述式(2)进行计算,得到相应的领域互引情况分布,具体情况如表6所示。
表6中描述了大数据技术文献在Computer Science(计算机科学)、Engineering(工程)、Mathematics(数学)、Telecommunications(电信学)这四大研究领域中的相互受欢迎情况,其中Computer Science(计算机科学)对Engineering(工程)的f值为0.823;Computer Science(计算机科学)对Telecommunications(电信学)的f值为0.737;Engineering(工程)对Computer Science(计算机科学)的f值为1.215;Telecommunications(电信学)对Computer Science(计算机科学)的f值为1.357。总体而言,在上述研究领域的大数据技术呈现出技术魅力相当的分布特性,不存在明显的技术魅力偏爱分布,其f值都在1附近。
在这些领域中,Computer Science(计算机科学)和Engineering(工程)、Telecommunications(电信学)和Computer Science(计算机科学)、Telecommunications(电信学)和Engineering(工程)技术魅力相当,其f值约等于1;而Engineering(工程)和Mathematics(数学)、Mathematics(数学)和Computer Science(计算机科学)相互受欢迎指数相差较大,表明这些领域中技术魅力单向偏好较为严重。
4 结语
本文使用统计分析的方法对WoS数据库中关于大数据技术的文献进行了统计分析,并讨论了当前大数据技术在不同领域的相互受欢迎现状。通过主题检索的方式对大数据技术的文献进行了查询统计,以Article(文章)和Meeting(会议论文)形式发表的大数据技术相关文献占了全部文献的59.17%和34.61%。分析了以Article(文章)和Meeting(会议论文)形式发行的文献,包含了Mathematics(数学)、Computer Science(计算机科学)、Engineering(工程)、Telecommunications(电信学)等领域,这些领域中文献的相互引用主要集中于Business Economics(企业经济学)、Computer Science(计算机科学)、Engineering(工程)、Mathematics(数学)、Telecommunications(电信学)这五大研究领域。
这些领域间的技术魅力分布,呈现出以下几方面的特点:
(1)以Meeting(会议论文)方式发表的文献中,Engineering(工程)和Telecommunications(电信学)领域互引偏好相似,技术魅力相当;而Engineering(工程)和Mathematics(数学)领域中,更加偏好于Engineering(工程)领域的Mathematics(数学)方向,体现出了Engineering(工程)、Mathematics(数学)两大领域的技术魅力呈单向偏好的特性;Computer Science(计算机科学)和Mathematics(数学)、Computer Science(计算机科学)和Telecommunications(电信学)领域互引偏好相似,其f值约等于1,对应领域的技术魅力相当。
(2)以Article(文章)方式发表的文献中,Computer Science(计算机科学)、Engineering(工程)、Telecommunications(电信学)这三大领域的受欢迎程度接近。其中,Telecommunications(电信学)领域、Telecommunications(电信学)领域和Engineering(工程)领域的f值都约等于1,各领域的互引情况分布差异性较小,这些领域的技术魅力基本相当。
(3)就整个行业文献总体情况而言,Computer Science(计算机科学)和Engineering(工程)、Computer Science(计算机科学)和Telecommunications(电信学)、Telecommunications(电信学)和Computer Science(计算机科学)、Telecommunications(电信学)和Engineering(工程)互引偏好相似,其f值约等于1,这几个子领域之间的技术魅力相当;而Engineering(工程)和Mathematics(数学)、Mathematics(数学)和Computer Science(计算机科学)互引偏好相差较大,技术魅力单向偏好较为严重。
5 政策及建议
根据上文的分析可以得出,在整个大数据技术的产业链中,科学领域与工程领域的相关研究较为热门,而且这两个领域的技术扩散较为广泛。在后期的科学研究中,应继续深化该领域之间的相互研究应用,为此在整个大数据技术的研究中,应该把基础理论与工程实际问题相结合,做到将基础科学转化为社会生产力,去实现社会价值,推进大数据技术的实际应用创新。大数据技术中的基础科学领域与通信等互引较为薄弱,而大数据技术的实际应用往往是跨学科的交叉应用,多种领域之间相互借鉴、相互引用才能更好地推进大数据技术的进步,最终实现大数据技术行业的进步,更好地为社会发展所服务。对大数据技术开发利用的同时,应该充分尊重人们的隐私,这方面的相关立法有待进一步完善,从而实现大数据行业的健康发展。
参考文献:
[ 1 ] LOHR S. The age of big data[N].The New York Times,2012-2-11(3).
[ 2 ] 牛帅.发达国家大数据战略及其影响[J].国际研究参考,2014(9):29-33.
[ 3 ] 赵蓉英,魏绪秋.计量视角下的我国人文社会科学领域大数据研究热点挖掘与分析[J].情报杂志,2016,35(2):93-98.
[ 4 ] 温芳芳.2008-2013国外信息检索研究知识图谱分析[J].图书馆理论与实践,2015(1):55-58.
[ 5 ] ZHAO Q, GUAN J. Love dynamics between scienceand technology:some evidences in nanoscience and nanotechnology[J].Scientometrics,2013,94(1):113-132.
[ 6 ] 官建成,唐崇敏.我国分学科科学计量评价及国际比较[J].科学学研究,2007,24(A02):515-522.
[ 7 ] 王炳立.基于科学计量学的国际大数据研究可视化分析[J].情报杂志,2015,34(2):131-136.
[ 8 ] 高霞,官建成.非专利引文衍生的科学期刊共被引网络分析[J].科学学研究,2010,28(5):675-680.
[ 9 ] GUAN J, ZHAO Q. The impact of university-industrycollaboration networks on innovation in nanobiopharm-aceuticals[J].Technological Forecasting and Social Ch-ange,2013,80(7):1271-1286.
[10] 方紅玲.2013年SSCI收录图书情报学期刊的文献计量学分析[J].情报科学,2016,34(3):107-111.
[11] 李江,蔡小静,李萍等.国内外文献计量学者的学术偏好比较[J].情报科学,2016,34(2):127-132.
[12] 李恬.大数据理念与图书馆大数据[J].新世纪图书馆,2014(6):24-27.
陈能美 重庆师范大学数学科学学院硕士研究生。重庆,401331。
彭建文 重庆师范大学数学科学学院教授、博士生导师。重庆,401331。
赵清俊 重庆师范大学经济与管理学院博士、副教授、硕士生导师。重庆,401331。
(收稿日期:2016-08-02 编校:刘忠斌)