利用数据挖掘分析消防研究热点
2018-03-28李艳娜
毛 星,董 里,李艳娜,刘 征
(公安部天津消防研究所《消防科学与技术》编辑部 天津300381)
大数据时代学术传播主要是通过网络平台,以学术成果信息为内核挖掘其背景信息及其相关信息,打破传统学术期刊与数据库的数据孤岛局面,增强数字信息使用分析与二次开发能力,利用数据挖掘技术充分释放文献与数据的功能,把有意义的每一条数据及其数据关系都转换成一个知识群或信息链,增强优质内容的增殖与衍生能力,创造更高的附加值[1]。
通过对本研究领域大数据相关研究信息的把握,甚至介入信息数据的大数据研究中,掌握第一手资料,及时进行选题策划,可占领学术研究的制高点[2]。
基于数据挖掘技术,应用 CiteSpace软件,对CNKI中近年所发表的消防工程类论文的关键词进行统计,分析近几年我国在消防方面的研究热点。利用国家科技报告服务系统,搜索相关项目申报情况,挖掘研究重点。结合实际的工作经验,提取合适的研究方向作为专栏报道方向。
1 关键词统计
CiteSpace是一个引文可视化分析软件,通过可视化的手段呈现科学知识的结构、规律和分布情况。当前文献图谱软件有 10余种之多,各个软件都有其不同的优势。如 VOSviewer在主题聚类方面清晰详细;SCI2在主题词分析时更加灵活;HistCite则对所下载数据集的文献互引按照时间以网路形式呈现(目前作者认为将很快被 CitNetExplorer tool代替);BibExcel则以数据集原始数据的Tag为依据,提供了多种多样的文献分析功能(需要外部的软件协助完成可视化,如 Gephi、VOSviewer、Pajek 等);CiteSpace以其强大的文献共被引分析而知名(恐怖主义研究和生物大灭绝),且随着不断的发展算法和功能而实现优化。
从 CNKI中导出《消防科学与技术》(核心期刊,CA、Pж(AJ)收录)2012—2016年共 5年的发表论文信息。2012—2016年,《消防科学与技术》共发表论文2,216篇,其中2012年422篇,2013年427篇,2014年452篇,2015年485篇,2016年430篇。
《火灾科学》(核心期刊,CA、CSCD 收录)2012—2016年共发表172篇论文。
《燃烧科学与技术》(核心期刊,CA、JST、CSCD收录)2012—2016年共发表454篇论文。
共2,842条信息。
1.1 共现分析
将数据导入到 CiteSpace中,经过数据转换后,用半径大小不同、颜色各异的年轮形节点来表示关键词的共现频次,节点颜色代表该关键词产生共现的年份,节点半径大小及连线粗细程度代表关键词共现的频次,节点半径越大、节点间连接线越粗,则该关键词的共现频次越高[3],得到结果如图1所示。
图1 关键词共现分析Fig.1 Cooccurrence analysis of keywords
从图1中可以看出,半径较大的节点对应的关键词有数值模拟、消防设计、安全疏散、火灾调查、燃烧特性、灭火救援等。表 1为出现频次排名前 20的关键词。
表1 关键词按出现频次排序Tab.1 Sequencing of keywords in order of frequency of occurrence
关键词共现图谱中节点最外层的深色圆圈显示关键词共现的中心性,中心性可以反映某节点与其他节点之间的联系以及在整个图谱中的作用和地位。通过对关键词共现中心性进行分析,可以得到具有重要作用的热点关键词,进而得到近些年的研究热点。表2为按照中心性排序,排名前20的关键词。
表2 关键词按中心性排序Tab.2 Sequencing of keywords in order of centrality
对照表1和表2可知,出现频次和中心性都高的关键词有:数值模拟、安全疏散、火灾调查、消防设计、防火分区、消防安全、建筑防火、热释放速率、细水雾、温度场、防火分隔、锥形量热仪。
1.2 聚类分析
通过聚类分析,可以考察关键词之间的相关性,把联系比较密切的关键词分为一组,从而更加清晰地描述该研究领域的各个热点研究方向。在共现分析的基础上进一步进行聚类分析,得到结果如图2所示。
图2 关键词聚类分析Fig.2 Clustering analysis of keywords
图 2中,Modularity表示网络的模块度,值越大表示网络的聚类结果越好,这里 Modularity值为0.713,9。Silhouette值(剪影值)是用来衡量网络同质性的指标,越接近 1,反映网络的同质性越高,这里Silhouette的平均值为0.398[4]。表3为聚类分析中包含10个节点以上的聚类的具体信息。
表3 聚类分析结果Tab.3 Result of clustering analysis
由表 3,可知几个较大的聚类分别为烟气流动、消防设计、燃烧性能、火灾风险评价、火灾调查、灭火剂、工业火灾。
结合表 3和出现频次及中心性都较高的关键词分析结果可知,烟气运动、消防设计、燃烧性能、火灾调查等几类是研究的重点。
1.3 研究前沿
在 CiteSpace中,采用一种“突发词检测”算法来确定研究前沿中的概念,基本原理就是统计相关领域论文的标题和摘要中词汇频率,根据这些词汇的增长率来确定哪些是研究前沿的热点词汇。根据这些术语在同一篇文章中共同出现的情况进行聚类分析后,可以得到“研究前沿术语的共现网络”。因此,研究前沿系指临时形成的某个研究课题及其基础研究问题的概念组合,也是正在兴起或突然涌现的理论趋势和新主题,代表一个研究领域的思想现状。表 4为突发词检测结果。
将聚类分析结果、突发词检测结果与出现频次和中心性都高的关键词结果结合,综合考虑后初步选择如下热点:消防设计、火灾调查、数值模拟。
表4 突发词检测Tab.4 Testing of sudden words
表5 热点相关项目Tab.5 Hotspot-related projects
2 相关项目检索
为了确定专刊报道方向,利用国家科技报告服务系统挖掘消防设计、火灾调查、数值模拟方向的研究热点。国家科技报告服务系统是国内目前比较完整记载政府科技基金项目的特种文献系统,将国家支持的科研活动产生的资料等向公众免费开放共享,拥有国家和地方科研计划及科研投入方向的庞大数据,可在线浏览所有公开的科技报告全文[5]。表5为在系统中检索到的与前文选定的热点相关的项目。
由表 4可知,4个热点研究方向中,在研和已完成项目最多的是数值模拟方面的项目。进一步仔细研究各项目的研究内容和所用的研究方法,可以看出,数值模拟作为研究方法,可用于消防设计、烟气运动、安全疏散、燃烧特性等方面的研究。结合前文关键词出现频次、中心性、突发性的统计结果,可知数值模拟软件如 FDS、BuildingEXODUS、Pathfinder,包括GIS等都得到了广泛的应用,是当前研究人员较为关注的研究方向。因此,初步拟定“数值模拟”为专栏主题,下设消防设计、烟气运动、安全疏散、燃烧特性等报道方向。
3 结 语
专栏是期刊特色和风格的重要体现,是期刊的亮点,而大数据的迅猛发展和应用为专栏策划、实施、宣传提供了广泛、快捷、便利的渠道。利用数据挖掘获取有用信息,了解期刊学科热点及发展趋势,确定专题策划方向,准确定位高水平作者,实现专刊精准宣传推送等,将成为科技期刊专题策划的重要发展方向之一。
笔者通过分析消防工程类期刊近 5年刊登文章的关键词和相关项目申报情况,获取了近年来消防领域报道的重点、热点内容,在此基础上提出了专栏策划主题和报道方向。接下来还需针对策划主题进一步调研各高校、研究院所的研究人员,为约稿和联系审稿人提供支持。
[1]夏登武. 大数据时代学术期刊的内容优化与价值重构[J]. 中国科技期刊研究,2016,27(3):264.
[2]丁滨,陈晓红. 刍议期刊文献的专题大数据挖掘价值[J]. 编辑学报,2016,28(5):488-491.
[3]王春雪,吕淑然. 我国燃气爆炸研究现状及热点前沿可视化分析[J]. 消防科学与技术,2016,35(11):1620-1623.
[4]李杰. CiteSpace中文版指南[EB/OL]. (2015-10-27)[2017-06-08]. http://cluster.ischool.drexel.edu/~cchen/citespace/ manual/CiteSpaceChinese.pdf.
[5]白娅娜,武英刚,宫在芹,等. 数据挖掘在专刊组稿策划中的应用[J]. 编辑学报,2016,28(6):550-553.