APP下载

基于词共现的大数据研究主题分析*

2014-12-31王一博王继民

图书馆论坛 2014年8期
关键词:类团共词领域

王一博,郭 鑫,王继民

0 引言

近几年,移动互联网、云计算、物联网等新一代IT技术迎来了发展的高峰期,互联网中的数据量正在以前所未有的速度不断增长与积累。在此背景下,大数据(Big Data)吸引了越来越多的关注。在学术界,《Nature》杂志早在2008年就推出Big Data专刊,随后《Science》在2011年推出《Dealing with Data》,对科学研究中的大数据问题进行了讨论。在商业界,IBM 率先提出4V概念并于2013年在北京发布了白皮书《分析:大数据在现实世界中的应用》,为企业从大数据中获取最大商业价值提供了五项关键建议。2012年3月份美国奥巴马政府发布了“大数据研究和发展倡议”,投资2亿美元以上,正式启动“大数据发展计划”,计划在环境科学、生物医学等领域利用大数据技术进行突破。目前,大数据已经得到多国政府和部门的高度关注[1]。大数据技术及相应的基础研究已经成为科技界的研究热点,大数据科学作为一个横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科正在逐步形成[2]。

迄今为止,业界对于大数据尚未有一个公认的定义。麦肯锡将大数据定义为:无法在一定时间内用传统数据库软件和工具对其内容进行抓取、管理和处理的数据集合[3]。从大数据的特征出发,被广泛应用的是“4个V”的定义:(1)规模性(Volume)。数据量级从TB级别发展到PB级别甚至是ZB级别,数据规模非常大。(2)多样性(Variety)。数据类型繁多,包括了大量图片、视频、位置信息等半结构化或非结构化数据。(3)高速性(Velocity)。数据流具有高速、实时的特点,需要大量的在线数据处理。(4)价值密度低(Value)。以视频信息为例,在不间断的监控过程中,有用的数据可能只有几秒钟。

有学者提出,大数据未来对国家治理模式,对企业的决策、组织和业务流程,对个人生活方式都将产生巨大的影响[4]。因此,对国内大数据领域的研究现状进行分析具有重要的现实意义。鉴于此,本文旨在通过收集中国知网(CNKI)中与大数据相关的高质量期刊论文,利用共词分析与社会网络分析方法,对大数据领域的研究主题进行梳理,探析该领域的研究热点,以期能够全面地对大数据的研究现状和研究热点进行揭示,为大数据理论与应用的深入研究提供一定的参考和借鉴。

1 研究过程

1.1 数据收集

定量分析方法需要大量的数据支持,可靠、准确的数据来源是研究可信的保证。我们选取CNKI学术期刊中的“SCI来源期刊”“EI来源期刊”“核心期刊”或“CSSCI”作为数据来源,选取这些期刊的原因是这些期刊所刊载的论文具有较高的质量。以“大数据”为检索词,检索类型为“主题”,检索时间不限,得到大数据领域的研究论文共2,281篇。之后,对数据进行清理,筛选出不含关键词或含有无效关键词的论文,最终获得分析的论文总数为1,780篇。

1.2 数据处理

共词分析方法是信息计量学中的一种内容分析方法,其原理是当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。共词分析方法最早在20世纪70年代由法国文献计量学家提出,经过几十年的发展,该方法已得到了逐步的完善和广泛的应用。医学、化学、人工智能等不同领域的研究者都利用共词分析方法的原理对不同时期各领域的研究热点进行了分析[5]。

关键词是作者从论文中摘出的能够反映文章基本内容的词。首先下载CNKI相关论文的题录信息,利用计算机程序统计所有关键词的词频并得到候选的高频关键词。这些候选关键词中不乏有“数据”“变革”“算法”等通用性词汇,而这些词汇对于研究主题的发展帮助不大,故删去。还有一些候选高频词虽然词的表现形式不同,但表达的意思相同或非常相近,例如地理信息系统和GIS、互联网与Web等。对于这类词,我们制定了一些映射规则用于对相同含义的词进行归并。然后将这些意义相同的词应用规则合并成一个规范词,再反过来对原始

关键词进行替换。之后再进行二次词频统计,得到相对准确的高频关键词列表。

粗略地看,关键词的处理主要包含两点:(1)同义词合并,制定映射规则,并替换原题录信息中的关键词;(2)删除无代表性、不能揭示学科主题的词汇。

笔者制定的部分映射规则如表1所示。例如“粗集”映射为规范关键词“粗糙集”。

表1 映射规则

经过数据处理后,选取排名靠前的60个高频关键词(频次大于等于6)作为研究对象,表2列出了排名靠前的部分高频关键词。

表2 高频关键词列表(部分)

1.3 共词矩阵的建立

基于表2所示的关键词表,利用笔者编写的程序,得到高频关键词两两共现的矩阵,部分数据如表3所示。

共词矩阵中,对角线上的数据为该词出现的总频次。在实际共词分析过程中,关键词共现频次受到各自词频大小的影响,为了准确揭示关键词之间的共现关系,本文采用Ochiia系数将共词矩阵转换为相关矩阵,结果如表4所示。

表3 高频词共现矩阵(部分)

Ochiia系数的计算公式如下:

表4 相关矩阵(部分)

相关矩阵中的元素数值在0-1之间,数值越接近1表示两个关键词的相似度越大;相反,数值越小表明两个关键词相似度越小。通过上述方法计算得出的相关矩阵中0值过多,计算时误差较大,为了减小误差、方便进一步分析,用1与相关矩阵中的各个数字相减,得到表示两词相异程度的相异矩阵,部分结果如表5所示。

表5 相异矩阵(部分)

对应的相异矩阵中的元素越接近于0,相似度越大;数值越接近于1,相似度越小。

1.4 聚类分析

聚类分析是根据数据对象的特征对研究个体进行划分,其原理是同一类中的个体具有较大的相似性,而不同类的个体之间存在不同程度的差异。将相异矩阵导入SPSS中进行层次聚类,得到聚类结果。根据聚类树状图,在阈值为22.5处切割可将其分成10个类团,具体如图1所示。

1.5 战略坐标分析

战略坐标是Law等人1988年提出,用来描述研究领域内部联系与领域间相互影响的情况。在本研究中,笔者使用战略坐标描述聚类结果中各个类团的基本情况,用X轴表示向心度,Y轴表示密度。其中,密度用来度量各个类别内各主题词间的联系强度。密度越大,知识群维持和发展自身的能力越强,该领域研究越稳定和成熟。向心度用来度量各类别主题词与其他类别主题词之间的紧密程度,表示一个学科领域和其他学科领域的相互影响的程度。向心度越大,主题与其他知识群联系越紧密,则该主题在学科中越趋于中心位置。战略坐标可以概括地表现一个领域的结构,它把每一个研究主题放置到坐标的四个象限中,从而描述各主题的研究现状[6]。

对类团密度和向心度的计算有不同的方法,本文采用的计算公式为:

其中,Eij是是关键词i和关键词j共现的次数,K代表通过聚类分析得到的某一类团,n是该类团所含关键词的数目,N是共词矩阵中所有关键词的数目。

根据表3中得到的聚类结果与高频词共现矩阵,利用上述公式计算出每个类别的向心度和密度,并对数据作Z-score规范化,之后根据规范化的结果绘制出最终的战略坐标图,结果如图2所示。

1.6 关键词共现网络核心-边缘结构

基于表3的数据,以关键词为顶点,以关键词之间的共现次数为边可以构建关键词共现关系网络。该网络是一个加权的无向网络。利用社会网络分析方法,我们可以对该网络的各项静态几何量进行定量分析,如节点的中心性及其分布、网络的密度、平均路径长度、凝聚子群等。网络的“核心-边缘”结构是由若干顶点相互联系构成的一种中心紧密相连、外围稀疏分散的特殊结构。利用社会网络分析软件UCINET与Pajek进行“核心-边缘”网络结构的计算与展示,结果如图3所示。

图1 聚类分析结果图

图2 战略坐标图

2 分析与讨论

根据2.4节中的结果,高频关键词聚类结果划分为10个类团较为合适。下面首先结合相关知识对10类主题进行分析。

图3 核心— 边缘结构图

第一类:属性约简算法改进研究。这一类团只包括粗糙集和属性约简2个关键词。粗糙集理论是由波兰科学家Z.Pawlak在1982年提出的一种处理模糊和不确定知识的数学工具,已经成功应用于机器学习、模式识别、数据挖掘等领域。对高维数据对象进行降维处理,最核心的内容就是对基于粗糙集的属性约简算法进行研究。现有的属性约简算法已经难以适应大数据集的处理,针对这一问题,一些学者讨论了对属性约简算法的改进,以保证算法的有效性。

第二类:从数据通信的角度对大数据的传输进行研究。这一类团包括DSP、以太网、数据传输和数据采集这4个关键词。随着互联网中需要传输的数据量的不断增加,互联网的传输技术、处理技术等需要得到优化。一些学者从数据通信的角度,对大数据环境下的数据获取方式与数据传输技术等问题进行了研究。

第三类:大数据处理技术与工具的研究。这一类团包括8个关键词,其中代表性较强的包括云计算、物联网、Hadoop和MapReduce等。随着大数据研究与应用的不断升温,对大数据处理的具体技术与开发工具也越来越受到学者的关注。2006年谷歌提出了云计算的概念,并为大数据的处理提供了一个良好的平台。现在,Hadoop已经成为大数据处理的最常用工具。物联网技术的广泛应用也为大数据的获取、存储与处理提供了解决方案。

第四类:机器学习算法的改进研究。这一类团包括9个关键词,其中代表性较强的有支持向量机、神经网络、机器学习等。近年来随着数据量的激增,传统的机器学习算法对于大数据量的处理普遍存在着处理速度慢、运行效率低等问题,一些学者从适应大数据处理的角度对某些算法进行改进。

第五类:大数据对新闻业的影响。这一类团只含2个关键词,分别是可视化和数据新闻。大数据时代的数据新闻报道改变了新闻的生产传播方式,加速新闻行业的角色转换。大数据对于新闻行业的影响引起了新闻学及传播学学者的关注。

第六类:大数据在图书情报领域带来的变革。这一类团包含6个关键词,代表性较强的有竞争情报、知识服务、信息服务、图书馆等。图书馆作为存储、传播知识的重要场所,在大数据时代将会发生深刻的变化。一些学者研究了大数据给图书馆信息服务带来的变化,以及大数据对企业竞争情报未来发展的影响等等。

第七类:数据挖掘技术在大数据处理方面的应用。这一类团包含8个关键词,其中代表性较强的有数据挖掘、聚类分析、关联规则等。数据挖掘是指从大量数据中揭示出隐含的、新颖的并有潜在价值的信息的非平凡过程。在大数据时代中,借用数据挖掘技术对海量数据进行分析是最基本的研究途径。

第八类:数据压缩技术的研究。这一类团只包括2个关键词,分别是小波变换与数据压缩。随着互联网中多媒体数据量的激增,如何对数据进行压缩和存储,是大数据需要解决的问题之一。为保证数据的传输质量并提高数据的存储效率,利用小波变换的方法对数据压缩技术进行优化,是众多学者关注的问题之一。

第九类:对海量图像数据进行实时传送与处理的研究。这一类团包括5个关键词,分别为海量数据、图像处理、自适应、拥塞控制、实时。在大数据时代中,“数据”不仅仅包括简单的字符串或文本流,还包括图像、音频、视频等,而诸如此类的数据往往具有较大的数据量,对海量图像数据传送与处理的研究是有必要的。

第十类:与物联网技术及其应用相关的研究。这一类团包括13个关键词,其中代表性较强的有无线传感器网络、信号处理、遥感、嵌入式系统、负载均衡等。物联网利用各种传感器将物理世界中的各种信息传送到计算机系统中,也势必导致互联网中的信息总量爆炸式增长。目前,物联网对于大数据的采集和分析仍然面临诸多挑战。

战略坐标图(图2)显示,K1,K3和K7是学者们在大数据领域中研究的核心内容,它们都具有较高的密度,其中K1和K7还具有很高的向心度。这说明属性约简算法与数据挖掘技术在大数据领域的研究较为成熟,且与其他类团的研究主题密切相关。由此可见,对于大数据处理技术的研究是迄今为止较为核心的研究内容。对于大数据处理技术及其工具而言,这一类团在十个类团中是密度最高的,说明其研究内容具有一定规模且较为成熟,诸如云计算、物联网、hadoop等均已成为时下的热点研究领域。相比之下,这一类团的向心度较低,但仍为正值,说明大数据处理技术与工具这一主题与其他研究分支具有一定的联系,但密切程度不高。

此外,其余七个类团则均位于第三象限,密度和向心度都低于平均水平,但其中一些类团距离原点较近,仍具有一定的发展潜力,如海量图像数据的处理,大数据在图书情报领域中的应用等等。值得注意的是,无论是向心度还是密度,K10这一类团都处于很低的水平,这也说明这一类团中的内部成员间联系比较松散,其中的成员很可能被分解、演化到其他类团中。如前所述,K10类团主要包括与物联网技术及其应用相关的研究。可以认为,随着大数据科学的不断发展,物联网技术将会逐渐内化到大数据领域的研究中。

根据图3(核心—边缘结构图),可以看到国内大数据研究领域的核心关键词有12个,分别为:数据挖掘、云计算、聚类分析、海量数据、支持向量机、并行算法、Hadoop、MapReduce、数据处理、大数据分析、信息服务、分布式等。这12个核心关键词大多具有较高的词频,词间的关系也相对紧密,反映了这些词所指向的研究内容已形成了一定的规模,而相应边缘结构中的关键词虽然数量众多(48个),其所代表的研究内容还略显薄弱。这个核心结构是在一定时间内逐渐形成的,暂时处于一个稳定的状态。但随着时间的推移,相关研究的不断深入,这种结构关系会发生一定的变化:边缘结构中的关键词可能会进入核心结构,而核心结构中的词也可能会退出,进入边缘结构[7]。

3 结语

本文使用共词分析方法,对以大数据为主题的优质期刊文献进行了直观、科学的分析,并进行了一些讨论与解读,具有一定的现实意义。从关键词共词矩阵出发,将其转化为相关矩阵和相异矩阵,利用SPSS进行层次聚类分析,最终获得10个主题类团。在此基础上,根据聚类结果,利用共词矩阵绘制了战略坐标图,对每一个主题的成熟程度、重要程度等进行了分析。最后,通过“核心-边缘”结构分析得到了大数据研究领域的核心关键词。

本文的研究仍然存在着一定局限性。首先,收集数据时将“大数据”作为主题字段,检索出的内容较为繁杂。其次,由于期刊论文的发表存在时滞,一些低频的关键词可能也是未来的研究热点,但在本研究中没有考虑。最后,本次研究搜集的数据主要是一些高质量期刊论文,并非全部的期刊论文,同时也不包括报纸、学位论文等数据,故文本中得到的结论并不能完全代表大数据领域的研究成果。

[1] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):146-169.

[2] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研究现状与科学思考[J].中国科学院院刊,2012(6):647-657.

[3] 严霄凤,张德馨. 大数据研究[J]. 计算机技术与发展,2013(4):168-172.

[4] 孟薇薇.信息爆炸时代的新概念:大数据[J].商品与质量,2012(9):9.

[5] 朱庆华,彭希羡,刘璇.基于共词分析的社会计算领域的研究主题[J].情报理论与实践;2012(12):7-11.

[6] 崔鹏,孙宝文,王天梅,等.基于共词分析的网络虚拟社会领域热点及演进态势研究[J]. 情报杂志,2013(2):41-44.

[7] 魏瑞斌,王三珊. 基于共词分析的国内Web2.0 研究现状[J].情报探索,2011(1):1-5.

猜你喜欢

类团共词领域
基于PubMed数据库病人报告结局研究热点的共词聚类分析
领域·对峙
基于突变检测与共词分析的深阅读新兴趋势分析
基于共词知识图谱技术的国内VLC可视化研究
基于关键词共词分析的我国亲子关系热点研究
基于共词分析和可视化的我国神经病学领域热点监测
新常态下推动多层次多领域依法治理初探
国际电子学习研究主题演化分析*
肯定与质疑:“慕课”在基础教育领域的应用
基于共词分析的近十年国内网络团购研究热点分析