APP下载

基于关键词的电力系统“大数据”与“云计算”专题文献分析

2016-04-07赵晓明张学强曹岚

浙江电力 2016年2期
关键词:高频词词频图谱

赵晓明,张学强,曹岚

(国网浙江省电力公司电力科学研究院,杭州310014)

基于关键词的电力系统“大数据”与“云计算”专题文献分析

赵晓明,张学强,曹岚

(国网浙江省电力公司电力科学研究院,杭州310014)

简要介绍了世界主要发达国家在“大数据”和“云计算”领域的研究进展。通过构建检索策略,从CNKI全文数据库中检索出电力系统“大数据”与“云计算”相关文献3 000余篇,采用基于词频分析的方法,使用文献题录信息统计分析工具SATI从中抽取了百余个高频关键词,生成了词频共现矩阵,并通过Ucinet软件绘制了高频词可视化图谱。利用高频词表、词频共现矩阵和可视化图谱可以分析和比较有关“大数据”与“云计算”的研究热点和技术发展趋势。

大数据;云计算;词频分析;CNKI;SATI;Ucinet;词频共现矩阵;可视化图谱

1 研究背景

近年来,世界各国均将“大数据”和“云计算”技术视为增强国家竞争力的关键因素之一,并将大数据研究和生产计划提升到国家战略层面[1-2]。2012年9月美国白宫发布《大数据研究和发展计划》,成立了大数据高级指导小组;2013年11月,美国信息技术与创新基金会发布了《支持数据驱动型创新的技术与政策》的报告;2014年5月美国发布《大数据:把握机遇,守护价值》白皮书,对美国大数据应用与管理的现状、政策框架和改进建议进行了集中阐述。英国从2011年开始,持续对大数据领域进行专项资金投入,推动数据公开,积极促进大数据技术从科研向应用领域转化;2012年5月,支持建立了世界上首个开放式数据研究所ODI(The Open Data Institute),该机构将人们感兴趣的所有数据融会贯通在一起,每个行业的各个领域在产生各种数据的同时又可利用这些数据。法国通过发展创新性解决方案并将其用于实践,来促进该国在大数据领域的发展;2011年7月,启动“挖掘公共数据价值”项目;2013年2月,法国政府发布《数字化路线图》,明确了大数据是未来要大力支持的战略性高新技术。日本以发展开放公共数据和大数据为核心,以务实的应用开发为主;2012年6月,日本IT战略本部发布电子政务开放数据战略草案,迈出了政府数据公开的关键性一步,提出2013—2020年期间以发展开放公共数据为核心的日本新IT国家战略,要把日本建设成为一个具有“世界最高水准的广泛运用信息产业技术的社会”。

中国也异常重视大数据领域研究,紧跟世界先进技术潮流和发展趋势。以电力行业为例,2013年3月,中国电机工程学会针对目前电力企业和电力行业数据状况,发布了《中国电力大数据发展白皮书》,电力行业的信息时代处在了关键的转折点[3-4]。电力大数据与电力能量流动相生相伴,为电力资源优化配置、能源效率水平提升、优质服务和辅助社会管理提供坚实的数据基础和提升空间,电力工业生态由此将开启崭新的模式。

为助推浙江省电力行业中“大数据”和“云计算”工作的开展,开展了基于CNKI关键词的电力系统“大数据”与“云计算”专题文献分析,绘制了高频词可视化图谱,利用高频词表、词频共现矩阵和可视化图谱,分析了有关“大数据”与“云计算”的研究热点与技术发展趋势。

2 研究方法与步骤

对文献的关键词进行分析,可以揭示其研究成果的总体特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向等[5-8]。词频分析法在情报学与科学研究中用于描述和预测产业或学科热点及发展趋势[9]。词频的波动预示着学术研究热点的切换和变化,而高频词频则表征近期学术的研究热点。

基于上述理论,首先构建检索策略并从CNKI全文数据库中提取检索到的文献题录。文献题录采用Endnote(*.txt)格式,这是全世界大多数期刊的题录格式,它能按期刊的要求自动生成参考文献。研究样本选取CNKI中国知网全文数据库2013年1月1日—2015年6月17日涉及大数据与云计算的相关文献。具体检索式为:主题=(电力+能源)AND主题=(大数据+云计算+云端+互联网+APP+移动),检索出相关文献3 446篇,去重后2 986篇。之后使用文献题录信息统计分析工具SATI从检索结果中抽取百余个高频关键词并进行词频统计,生成100*100和20*20词频共现矩阵和高频词频次表。最后将生成的词频共现矩阵导入Ucinet软件并绘制出高频词可视化图谱。

3 研究结果

3.1 高被引论文与高下载频次论文

统计在电力系统“大数据”与“云计算”领域的高被引论文与高下载频次论文,汇总于表1。从被引次数看,华北电力大学的宋亚奇因其开创性的研究成为该领域内被引次数最多的论文作者,同时也是下载频次最高的论文作者。在高被引论文TOP9中,华北电力大学有4篇,表明其在该研究领域处于领先地位。

3.2 高频关键词统计结果

通过SATI软件统计分析出百余个高频关键词,其中词频达10以上的关键词有36个(见表2)。去除研究对象“云计算”和“大数据”外,“智能电网”以122的词频排在第1位,说明在智能电网领域大数据与云计算技术应用较多。“国家电网公司”词频排在第3位,说明国家电网公司在电力行业大数据应用领域的研究较为积极。表2中涉及可再生能源的关键词有“可再生能源”“新能源”“分布式能源”“分布式发电”“微网”等共计117个,是除智能电网领域外的第2大电力大数据应用领域。高频词中“中国电科院”出现26次,是出现次数最多的科研机构。

此外,在环境保护(环境压力、节能减排)、电动汽车、能源互联网、电力营销、负荷预测等领域大数据研究也较为集中。表2中的关键词,互联网及移动互联网涉及较多,说明当今互联网及移动互联网成为大数据和云计算的主要载体,而大数据和云计算则是“互联网+”的重要表现形式。

在研究方法中,Hadoop应用得较多,Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是典型的大数据批量处理架构。Hadoop框架的核心是HDFS和MapReduce,由HDFS负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现,MapReduce编程模型具有在Web环境下批量处理大规模海量数据的优异性能。

高频关键词中出现了“数据挖掘”和“数据中心”,可见数据挖掘和大数据技术息息相关,是大数据技术的主要内容之一,其前提是具备海量的数据、先进的计算技术、海量的存储能力、高速运算能力以及交叉学科的发展。数据挖掘的主要方法有分类、估计、预测、相关性(共现)分析、聚类等。而数据中心则是一套包括计算机系统和配套设备(通信系统、存储系统、供电系统、冷却系统等)的大型网络基础设施,是大数据的载体、云计算的依托。国外已有采用直流供电形式的数据中心,如西苏黎世数据中心,其直流供电在降低能耗方面效果显著,值得国内学者关注。

表1 高被引论文与高下载频次论文TOP9

表2 高频关键词统计

3.3 关键词共现矩阵

表2直观地展现了近3年电力行业大数据及云计算的重点研究对象及其热度,但是单一关键词的出现频度并不足以完全呈现研究对象的走向和趋势,如果要进一步挖掘关键词之间的关系,则需要进行“关键词共现分析”。共现,是指两个关键词同时出现在同一篇文献中,若2个关键词共现则说明它们之间存在着密切的关系,共现次数越多,关系越密切。利用CNKI数据库检索结果,以共现频率为对象,采用文献题录信息统计分析工具SATI分析关键词之间错综复杂的关系,生成不同颗粒度的共现矩阵,使所研究的问题和对象的动态趋势可视化。

表3为高频关键词共现矩阵(7*7)表(节选),可以看出智能电网与大数据和云计算共现最多。

3.4 共现矩阵的可视化

将高频关键词共现矩阵导入Ucinet软件并绘制出高频词可视化图谱如图1所示。图中连线越密集表明关键词之间的关系越密切,可以非常直观地看出目前电力行业大数据和云计算的研究热点领域。

表3 高频关键词共现矩阵(7*7)(节选)

图1 高频词可视化图谱

4 结语

采用词频分析方法,结合软件自动分析功能和手动去重、合并等技巧生成高频词表、词频共现矩阵和可视化图谱,进而分析得到专题研究热点和技术趋势。研究方法中涉及的几个关键问题总结如下:

(1)使用文献题录信息统计分析工具SATI,自动完成重复文献去重工作。

(2)对软件计算出的关键词进行同义词合并。

(3)对无实质意义的词进行去除处理。

在研究结果方面,电力系统“大数据”与“云计算”专题文献情报分析表明:智能电网和可再生能源是电力大数据应用的热点研究领域,在环境保护、节能减排、电动汽车、能源互联网、电力营销、负荷预测等领域大数据研究也较为集中;在大数据与云计算研究方法中,Hadoop架构体系涉及较多,值得研究人员关注。

[1]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(09)∶1889-1908.

[2]张建华,吴恒,张文博,等.云计算核心技术研究综述[J].小型微型计算机系统,2013(11)∶2417-2424.

[3]彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015(03)∶503-511.

[4]王继业,程志华,彭林,等.云计算综述及电力应用展望[J].中国电力,2014(07)∶108-112.

[5]魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006(9)∶1401-1406.

[6]钱军,杨欣,杨娟.情报研究方法的聚类分析[J].情报科学,2006(10)∶1561-1567.

[7]曹玲,杨静,夏严.国内竞争情报领域研究论文的共词聚类分析[J].情报科学,2010(06)∶923-925.

[8]崔雷.专题文献高被引论文的时间分布与同被引聚类分析[J].情报学报,1995(01)∶54-61.

[9]纪盈如.移动互联网时代中国媒体走向——基于CNKI文献关键词的词频分析[J].重庆工商大学学报(社会科学版),2013(05)∶93-99.

(本文编辑:方明霞)

Thematic Analysis of"Big Data"and"Cloud Computing"in Power System Based on Key Words

ZHAO Xiaoming,ZHANG Xueqiang,CAO Lan
(State Gird Zhejiang Electric Power Research Institute,Hangzhou 310014,China)

The paper briefly introduces big data and cloud computing research in major developed countries in the world.A retrieval strategy is established and more than 3,000 papers concerning big data and cloud computing in power system are retrieved from CNKI database.The method based on analysis of word frequency is adopted to extract more than 100 high frequency words from the papers using SATI(statistical analysis toolkit for informetrics)to generate co-occurrence matrix of word frequency and draw visualization map of high frequency words using Ucinet.By table of high frequency words,co-occurrence matrix of word frequency and visualization map,research hotspot and technical development trend in respect of"big data"and"cloud computing"can be analyzed and compared.

big data;cloud computing;word frequency analysis;CNKI;SATI;Ucinet;word frequency cooccurrence matrix;visualization map

TP317.2

:A

:1007-1881(2016)02-0027-04

2015-10-08

赵晓明(1976),男,高级工程师,从事电力科技信息服务工作。

猜你喜欢

高频词词频图谱
30份政府工作报告中的高频词
省级两会上的高频词
基于词频比的改进Jaccard系数文本相似度计算
28份政府工作报告中的高频词
省级两会上的高频词
绘一张成长图谱
补肾强身片UPLC指纹图谱
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
主动对接你思维的知识图谱
词频,一部隐秘的历史