APP下载

融合聚类算法和社会网络分析技术的学科交叉研究热点分析

2021-03-09张立说陈天文

内蒙古科技与经济 2021年3期
关键词:子群交叉热点

张立说,陈天文

(潍坊市图书馆,山东 潍坊 261000)

随着科技的不断进步与发展,科学研究的交叉性与高动态性等特点日益显著[1],因此学科交叉热点研究成了当下学者们的研究热点。研究学科交叉热点可揭示当下学科主题之间的内在联系、了解前言动态,更能有效地分析研究主题发展的潜在规律[2]。

学科交叉研究早在20世纪70年代就已被学者提出,目前学科交叉研究已进入实证研究阶段[3],Rhoten等[4]人在文章中提出,从大学研究项目和青年学者的调研入手,强调了学科交叉研究的意义与其发展前景。蒋永新等[5]对图书情报研究论文做关键词聚类分析,研究其热点论题的分布与变化趋势。闵超等[6]在更细粒度上做聚类类团分析、战略坐标分析,进一步探索学科交叉研究热点。

笔者拟在前期学者的研究基础上,运用CONCOR迭代相关收敛法对关键词进行聚类,借助SPSS、UCINET和NETDRAW软件进一步对当下学科交叉热点进行分析,以图书情报学与互联网技术学为例,挖掘两学科关键词之间的内部关系,揭示两个学科的研究热点与发展趋势,为研究者深入了解学科背景知识与掌握前言动态打下坚实基础。

1 相关技术简介

笔者选取图书情报与互联网技术两门学科文献对应主题词进行研究与分析,首先将提取后的文本进行预处理,生成结构化的矩阵,然后分别对其进行CONCOR迭代相关收敛分析与聚类分析,揭示两学科当前研究热点,分析两学科交叉热点发展趋势。

1.1 CONCOR迭代相关收敛法

CONCOR(convergent correlation)是一种迭代相关收敛法,可对数据样本重复训练从而实现凝聚子群分析。CONCOR的主要思想为:首先提取样本特征项,生成样本矩阵;然后CONCOR算法会根据矩阵各行或列之间的关系生成相关系数,得到相关系数矩阵CO1;CONCOR算法再将矩阵CO1作为输入矩阵继续训练样本,根据CO1矩阵各行或列存在关系得到新的系数矩阵CO2;继续迭代计算,最终通过树形图(tree-diagram)将各位置间结构对等程度展示出来,并将各网络成员标记出来。

CONCOR算法生成的相关系数矩阵中包含皮尔逊积距系数,此系数可用来衡量各对象间的相似性,将样本的凝聚子群关系展示出来,根据样本对象特点,形成一个个不重叠的子群,并能根据子群密度分析子群的重要程度或孤立点,从而实现深度分析群体的功能。

1.2 聚类算法

聚类分析(群分析)是运用统计分析的方法对样本进行分类,是数据挖掘中的重要方法。聚类,就是通过分析样本数据间的内在关系,将具有相同属性或相似的对象聚集在一起,不相同的对象分成不同类别的过程。与分类不同的是,聚类可根据样本自身特点,训练分类标准,从而得到合适的类别。

常用的聚类算法有K-means方法、K-medoids方法、CLARANS方法、BIRCH方法等[7~10],笔者选择系统聚类方法,其主要思想是:首先将样本中各对象看成一类,然后根据各类之间的距离,将距离最小的进行合并,生成新一类;再根据新类与其他类之间距离,合并距离最近的两类;重复此步骤,直至所有样本对象合为一类为止。用此方法处理学科关键词,可根据当前关键词出现频率进行有效分类,有助于分析学科关键词之间的关系,深入分析学科研究热点。

2 基于CONCOR的学科交叉研究热点与潜在研究方向分析

2.1 数据预处理

为了清楚展现两门学科交叉研究领域的组成结构及其演化情况,笔者以中国知网论文被引数量为基础,选取从2013年开始7年的文章数据为支撑,其中,图书情报技术与互联网技术两学科交叉的文章3 000篇,互联网技术学科文章3 000篇。研究这两门学科当下的研究热点,并对研究热点进行预测。由于关键词最能反映文章核心,因此,根据需要将所选文献导出其文献关键词,并对这些关键词进行去重、关键词抽取、词频统计、矩阵生成,在生成矩阵时笔者选用经典的相似度矩阵公式,根据关键词在文章中出现的词频生成相似度矩阵。

2.2 CONCOR凝聚子群分析

由于图书情报技术与互联网技术交叉学科在很大程度上借鉴了互联网技术的领先优势,因此,将当下互联网技术学科的研究热点进行分析,从而支撑交叉学科热点的研究与预测。笔者将处理好的相似度矩阵导入Ucinet软件中进行CONCOR凝聚子群分析,可生成对应凝聚子群,并计算出密度最大的子群,从而得到贡献最大的学科关键词。因此,本文选择将互联网技术学科关键词矩阵导入,生成可视化图形,如图1所示,分析当下互联网技术学科中较热的关键词。

图1 互联网技术学科关键词凝聚子群分析

CONCOR算法将词频大于30的关键词分成8个子群,每个子群对应的密度矩阵,如图2所示,其中密度最大的子群为第2和第6个子群,证明这两个子群在整个群体中贡献度最大,其对应的关键词分别为{服务质量,云制造,服务组合,遗传算法,协同过滤,Web服务}、{新浪微博,用户体验,互联网},而根据关键词词频统计(部分截图,如图3所示),词频最高的并不是密度最大的,因此CONCOR算法可帮助找到互联网技术学科研究热点。

图2 互联网技术学科凝聚子群密度分析

图3 互联网技术学科关键词词频统计部分截图

2.3 系统聚类

笔者运用系统聚类方法对图书情报技术与互联网技术交叉学科关键词进行聚类操作,根据2.2节中分析得到的互联网技术学科密度较大的关键词集合,将两交叉学科的关键词矩阵用NetDraw工具生成可视化关系图谱,并标记出聚类后含有{服务质量,云制造,服务组合,遗传算法,协同过滤,Web服务}、{新浪微博,用户体验,互联网}的关键词类别,如图4所示。

图4 两学科交叉关键词可视化图谱

图4中,网络安全、信息安全、云服务、网络技术、服务、高校、图书馆管理、计算机、服务质量为一类,其中服务质量为2.2节中标记的密度较大关键词组中一员,这证明了当下服务、网络安全等不仅是互联网行业的热点话题,在图书情报行业中依旧是研究者们的热点,更是下一步的研究趋势,随着互联网的不断发展与普及,数字图书馆、云服务成了当下图书馆发展的趋势,但同时面临着网络安全、信息窃取等问题,因此网络安全、网络技术等已成为当下研究的热点和趋势。社交网络、移动信息服务、研究热点、微信公众平台、微博等被分为一类,其中微博为2.2节中标记密度较大关键词组中一员,这证明了网络信息研究已成为热点话题,网络平台中隐藏着许多需要挖掘的信息,由于信息技术的不断发展,线上阅读、讨论已成为人们生活中必不可少的一部分,例如微博、微信等平台,这已成为研究者们不断关注的焦点。

从以上分析可以看出,运用CONCOR算法可挖掘出当下学科的关注热点,以单学科热点数据为基础,借助聚类方法,可分析得到交叉学科中的热点信息,预测交叉学科研究发展方向。

3 结束语

笔者运用CONCOR迭代相关收敛法,对交叉学科其中一门学科关键词做凝聚子群分析,得到最大密度子群;再对交叉学科关键词做系统聚类,以数据可视化的形式展现出来,借助单门学科最大密度子群中的热点话题,分析交叉学科当下的研究热点与发展趋势,提出了基于CONCOR的学科交叉热点分析与预测方法,为研究者掌握学科知识演化方向提供支持。但本文在研究过程中还存在许多不足之处:①随着科研的不断发展与进步,许多文献关键词并不能很好的概括文献重点,许多关键知识会散落在摘要或是正文中,本文在研究时以关键词为依据,其数据不够全面,需要深度研究。②在研究方法上,研究热点会随着时间的推移不断改变,因此,在热点研究时应考虑时间等多方面的因素,这也是今后的研究重点。

猜你喜欢

子群交叉热点
Schmidt子群为Hall S-拟正规嵌入群的有限群①
有限群的局部化HC-子群①
有限群的弱τσ-嵌入子群
菌类蔬菜交叉种植一地双收
“六法”巧解分式方程
热点
关于ss-拟正规子群和c-正规子群
结合热点做演讲
连数
连一连