APP下载

基于CiteSpace5.5R2的时空大数据挖掘
——以中国知网地理信息系统学科文献为例

2022-04-29张澳兵雷盼荣

测绘工程 2022年3期
关键词:图谱时空聚类

田 静,李 刚,张澳兵,谭 粤,雷盼荣

(1.黑龙江工程学院 测绘工程学院,哈尔滨 150050;2.长安大学 地质工程与测绘学院, 西安 710054)

随着我国北斗卫星导航定位技术、天空地一体化、互联网+和通信网络等技术的不断发展,地球表面上的特征、人和物都成为了可表征的地理时空大数据。随着“大数据时代”的到来,从数量庞大的科研文献中精简知识体系、挖掘学科研究热点、总结发展研究规律、追踪学科研究动态,是研究地理信息系统发展趋势的重要任务。在当今大数据的时代背景下,不同于以往的基于人工设计或传统方法获取,文中以时空大数据挖掘技术对地理信息系统文献“量化”(数据化)并进行深入推理,采用文献计量学、计算机可视化分析、定性和定量相结合的主要研究方法,并结合中国知网10 a间收录的文献数据,为地理信息系统的研究脉络及前沿热点的预测与分析奠定了良好的数据基础[1]。

1 时空大数据挖掘技术

1.1 时空大数据技术概述

时空大数据的挖掘与分析是一个复杂的过程,根据现有的地理信息系统文献数据类型,文中采用基于图论链接关系的自动聚类算法,通过网络收集与下载、编程爬取、预处理筛选重分类等时空大数据挖掘方法来获得相应的样本文献数据[2]。最后,通过对文献年度发表数量变化趋势进行统计分析,利用关键词、发文机构、核心作者人物关系等指标进行科研合作网络分析,并对上述分析结果进行统计和整合[3]。同时,利用引文空间软件的结构性和时间性等特殊指标,将原来的聚类生成时态视图并加以分析,多方面展现不同聚类发展演变的时间脉络和研究进程。

1.2 分析表达与解释

将2010—2020年10 a间中国知网收录的以“地理信息系统”为主题的文献作为样本,提取出这些文献的标识符详细信息(包含题名、作者、单位、文献来源等相关数据)。使用Excel,Python等工具对样本文献进行分类、去重等数据预处理工作,将处理后的数据存入数据库。随后,运用CiteSpace5.5R2、ArcGIS10.6软件对文献进行聚类分析、共被引分析、科研合作网络分析等操作,将分析结果使用时间线图谱、地理信息空间地图等可视化方式呈现并解读。

CiteSpace5.5R2软件(引文空间)是一款应用于科学文献中分析和可视化科学发展新动态及新趋势的Java程序[4]。结合中国知网收录的数据,借助于科学知识图谱相关的研究方法对其进行文献计量化分析。首先,确定研究领域并收集该领域内的关键词及专业知识、术语、常识等相关数据;其次,通过该软件提取样本数据中有关研究领域的前沿术语、热点关键词等,建立合理的图谱分析解读机制[5];最后,利用计算机算法对样本数据进行时区分割、科研合作网络分析,选择恰当的阈值,进行数据的可视化表达,具体软件使用流程如图1所示。

图1 CiteSpace5.5R2软件使用流程

2 数据获取

文中所述的文献数据是由中国知网(CNKI)提供的。首页勾选“学术期刊”,通过“高级检索”功能,将搜索需要用到的主题限定为“地理信息系统”,将发表时间限定在 2010—2020年,精确匹配检索,最后在其检索数据中筛选出“中文核心期刊和 CSSCI 来源期刊”,以便对这10 a间地理信息系统领域研究发展情况进行更好的统计分析,得到2 914条结果。使用Excel和Python筛选出恰当的数据,最终得到2 821篇与文中有关的学术论著。

2.1 研究对象界定

文中地理信息系统文献数据研究用于分析该学科在单一主题的不同发展阶段的演变趋势。在时空大数据挖掘的基础上,通过定性、定量或定性定量相结合的方法来架构不同关键词之间的关联,在此基础上对地理信息系统的发展趋势进行探讨[6]。

2.2 数据建库

为了能够快捷、高效并安全地处理、管理大量的文献数据,使用MySQL数据库存储处理后的文献数据。最后将所有文献数据导入CNKI数据表中,完成数据的前期准备。CiteSpace5.5R2软件将可视化图谱中的节点和连线存储为.net文件,从而可以利用Pajek或UCINET进行知识网络图谱的绘制[7]。

3 数据挖掘与分析

为了满足研究需要,在进行数据分析前,需要对存在缺失值和重复值的数据进行剔除。最后将所有数据按照发布时间进行重排序,并添加新的列索引,按照行号建立唯一值索引。

3.1 论文发表时间趋势分析

关于地理信息系统领域文献发表时间与发文量之间的关系,如图2所示。由图可知,自 2011 年以来,地理信息系统领域的发文量总体呈缓慢下降趋势,论文整体的发表数量不断减少。另外,从整体刊载数量上看,最能反映地理信息系统前沿的核心文献研发数量与全部文献相比非常的不乐观,表明我国对于地理信息系统的学术研究较少,重视程度不够。这与该领域内的研究人群相对分散、人员数量匮乏是直接相关联的,期望能有更多的研究人员以新的研究理论、研究视角进一步对地理信息系统学科做出高标准、高水平、高质量的研究成果。

图2 发文量年度变化趋势图(2010—2020年)

3.2 合作作者网络分析

运行 CiteSpace5.5R2软件,时间切片是1 a,结点类型选择作者,TOP N=50,其他参数为默认设置。以 2010—2020年的时间跨度分析,排序方法主要是按照类团当中组织成员的人数,结点越大表明该作者科研成果的信息控制和输出能力越强,如图3所示。

图3 样本文献作者关系网络图谱

在作者合作网络分析的基础上,过滤筛选前9个大小的网络合作类团,调图绘制得到图4作者间研究关键词聚类分类。

图4 作者间研究关键词聚类分类

以上大数据表明,通过与多位学者合作,尤其是通过各大高校之间的强强联合,能够产生极其庞大的影响力,也能创造出非凡的学术成果。因此,我国地理信息系统研究学者需要加强对地理信息系统领域多学科、多中心、跨领域的合作研究与开发,逐渐建立起以核心作者为学术共同体或中坚力量的共现网络,科研能力较强的学术机构要加强对相对弱的机构的合作指导并带动其发展。

3.3 研究机构共现分析

研究机构是针对某研究领域不断发展的重要载体,对促进学术交流、成果共享、资源互补等起着重要的导向作用。运用CiteSpace5.5R2软件的LLR算法筛选过滤,可以直观地了解到机构对地理信息系统研究领域的重视程度和影响力的分布情况,绘图调整得到图 5 机构网络共现图谱[8]。

由图5可知,节点最大的3个机构分别是中国科学院大学(包括地理科学与资源研究所、研究生院)、武汉大学测绘遥感信息工程国家重点实验室和南京师范大学虚拟地理环境教育部重点实验室[4]。整理了发文量位于第一位的机构与其他机构的合作群落及其发文量年度趋势图,如图6、图7所示。

图5 机构网络共现图谱

图6 机构合作网络图谱(以2010—2020年间中国科学院大学为例)

图7 发文量年度趋势图(以2010—2020年间中国科学院大学为例)

3.4 关键词共现分析

关键词共现是提取该文献所能表达其核心内容的关键词或主题词词频的多少分布,用于研究该领域的研究热点,判断其发展动向[9]。利用CiteSpace5.5R2软件,通过结果输出可以看到包含节点479个和连线数302条,过滤器筛选引文数量最多的前20个,可视化至明显的结构后生成图谱并进行网络剪裁,调整图谱得到图8。

图8 关键词共现网络图谱

3.5 关键词聚类分析

在关键词共现图谱的基础上,根据CiteSpace5.5R2软件中默认的算法自动聚类,选取 LLR 算法,其他参数设置与机构参数保持一致,调整图谱[10]。文中通过合并整理展示前7位关键词,间接反映了我国地理信息系统领域内的研究前沿的热点,如表1所示。

表1 关键词聚类与合并(前7位)

3.6 突显率与时态演进分析

突发性探测是指1个变量的值在短时间内激增,突然变成热点,被学术界所关注,可以理解为“百度指数”[11]。文中选择前24个的项目,并按照“开始年份”“爆发强度”因素降序排列,通过调整默认的伽马值取值范围,得到表2。由于突显率具有延续性,因此如果该点在 2020 年也是红色的,该点有能力在未来几年继续成为前沿的研究热点,也是广大学者值得关注的一个技术分支,例如建筑信息模型(BIM)、地理环境、时空分布、空间自相关等。

表2 关键词突显率(前24位)

利用Timeline View功能进行时态分析,合理调整坐标轴的行间距,展示前10个聚类,调整图幅得到图9,即TOP10关键词研究热点时间线图谱,使其更加清晰地展现出地理信息系统领域研究热点的发展历程。如图9所示,交叉线最多的是地理信息系统和遥感,说明这两个结点经常与其他研究方向有交流合作的研究。

图9 TOP10关键词研究热点时间线图谱

3.7 热力分析

文中用ArcGIS10.6软件中的热力分析工具统计的数据密度来直观表现并验证文献研究的空间热力分布[12]。首先,在数据库中找到符合实验主题的点数据,从其属性表中设置符合成图风格的属性,之后将基于该属性进行热力分析。检核分析结果,如图10所示是样本数据热力分析的结果,疏密有致,符合预期。

图10 热力分析

4 结束语

利用CiteSpace5.5R2和ArcGIS10.6软件,对中国知网中2010—2020年以地理信息系统为主题的样本文献作上述分析,得出如下结论与建议:

1)采用的基于图论链接关系的自动聚类算法,弥补了传统的聚类算法,如K均值算法、EM算法等都是建立在凸球形的样本空间上,在样本空间不为凸时,算法会出现局部最优这一缺陷[13]。

2)地理信息系统与新兴技术的结合始终是一个热点话题,我国地理信息系统已经应用到不同的领域解决相关的问题,其内涵和外延正在不断变化[14]。这10 a间的应用研究表明地理信息系统领域在社会发展建设中依然有着很好的前瞻性和借鉴性。但近几年来特别是在地理信息系统领域,研究有走向衰弱的趋势。

3)地理信息技术呈现一些新的发展趋势:一是多类型公开产品的在线服务。二是从数据服务到知识服务。随着大数据、数据库、人工智能等软件技术的成熟运用,以及相应的硬件技术的发展,我国已逐渐认识到深度挖掘时空大数据、提取地理空间知识的重要性,相继推出了面向空间数据整合与分析的服务平台。需要不断温故知新、创新思路,要充分关注以学科为核心的信息技术变化与更新。在当前大数据时代背景下,旨在通过时空数据建立起将地理信息、测绘和通信服务融合为一体的共享系统,实现立足于数据驱动的技术科学发现和决策支撑平台。

4)近5 a内,“研究所、技术研究中心、重点实验室”等机构在我国高校的地理信息系统领域内具有较强的科学研究和输出能力。通过人才引进等渠道,有针对性地选择和进行人才引入,将自己所在高校的人员,进行有目标性的培养和派遣到其相应的知名学者或机构下,实现交流和学习的整体性融合推进,以此来进一步促使我国大学生对地理信息系统领域研究的整体性推进。

5)文中研究主要针对10 a间中国知网收录的地理信息系统相关文献进行发展趋势的分析和预测,拘于样本数据的有限性,缺少除中文核心外其他文献数据的支撑,未能建立起全面的发展脉络分析和预测模型。由此发现,文中结论适用于近10 a来的发展情况,但不适用于横向对比,因此有待于进一步的深入研究。

猜你喜欢

图谱时空聚类
高清大脑皮层发育新图谱绘成
跨越时空的相遇
中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索
绘一张成长图谱
镜中的时空穿梭
基于K-means聚类的车-地无线通信场强研究
玩一次时空大“穿越”
基于高斯混合聚类的阵列干涉SAR三维成像
主动对接你思维的知识图谱
时空之门