国内知识发现研究可视化分析
2018-03-23韩雪
韩雪
[摘 要] 选取CNKI收录的知识发现相关研究文献,利用STAI构建高频关键词共现矩阵,运用SPSS绘制聚类树状图,采用社会网络分析及共词分析等方法对2012年至2017年五年内知识发现领域研究热点及趋势进行分析,通过梳理国内知识发现领域研究现状,以期为知识发现的研究和发展提供借鉴和指导。
[关键词] 知识发现;社会网络分析;共词分析;可视化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 03. 055
[中图分类号] G250 [文献标识码] A [文章编号] 1673 - 0194(2018)03- 0136- 03
0 引 言
随着大数据时代的来临,数据的指数级增长和广泛的可用性为知识发现提供了巨大的潜力,并为在各个学科和各领域中的应用带来了新的挑战,知识发现与数据挖掘也成为了国内学术界研究的热点[1]。本文运用社会网络分析方法和共词分析方法,通过关键词共现网络和关键词共词聚类分析,探索我国知识發现研究热点和内容结构,通过与国际研究前沿领域的比较,以期为后续知识发现研究与实践的开展提供参考和建议。
1 数据来源与研究方法
1.1 数据来源
本文选取CNKI中国学术期刊网络出版总库为数据来源,检索式为“主题=知识发现”;检索时间从2012年1月1日至2017年5月1日,得到2 277检索结果,经过数据清洗,去除新闻及通知等不相关检索内容,共获得2 216条检索结果。
1.2 数据处理工具
在进行研究分析前,对数据进行预处理工具是数据分析的重要环节。本文使用文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics, SATI)[2]对检索结果进行字段信息抽取、条目频次统计,最后构建共词矩阵,将共词矩阵导入社会网络分析软件Ucinet和SPSS进行分析,形象的展示知识发现的研究热点与前沿发展趋势。
1.3 构建共现矩阵
将从CNKI中检索到的内容以endnote格式导出,然后导入SATI中,选择作者以及关键词作为字段抽取,进行频次统计,生成高频关键词矩阵,将生成的矩阵保存为Excel格式,导入ucinet和SPSS中,为后续分析做准备。
1.4 研究方法
本文利用社会网络分析方法构建高频关键词共现网络图谱,采用共词聚类分析法,利用SPSS绘制关键词聚类树状图揭示知识发现领域研究结构及其存在的内在联系[3]。
2 高频关键词共现网络分析
将在SATI中生成的关键词共词矩阵导入ucinet,使用netdraw进行可视化分析生成高频关键词共现网络,如图1所示。其中节点越大,连线越多表明该关键词属于知识发现领域核心的关键词,在该领域具有重要作用。由图1可知,数据挖掘、知识发现、图书馆、关联数据、关联规则是知识发现领域的热点研究问题。其中数据挖掘与知识发现处在该领域的绝对中心,一方面关于知识发现与数据挖掘关系的探讨一直受到学者的关注,另一方面在某种程度上可以说,知识发现在其他领域的应用是围绕着数据挖掘展开的。
3 高频关键词聚类分析
聚类分析是一种“物以类聚”的研究方法,它的基本思想是根据数据对象的特征,将特征相似的数据对象归为一类,使得同一类中的数据对象的距离小于与其他类间的数据对象的距离,主要目的是用来判别数据对象之间关系的亲疏程度。聚类分析方法又分为划分法和层次法,层次聚类法是指将数据对象聚类成具有层次嵌套结构的树状图,位于最顶层的根节点对应的是整个数据集,处于最底层的对应的是单独的数据点[4],本文使用层次聚类法探讨知识发现领域高频关键词之间的内在联系,探究知识发现领域的研究热点。
将高频关键词共现矩阵导入SPSS 20.0分析软件中进行系统聚类分析,经过详细比较研究,本研究采用组间联接、欧式平方距离的方法聚类效果最好[5],得到高频关键词聚类树状图,如图2所示。对聚类结果进行分析,可以看出,在这五年中,知识发现领域的研究热点大概可以分为四类:知识发现方法与技术研究;图书馆知识服务研究;知识发现应用领域研究;粗糙集理论与应用研究。
(1)知识发现方法与技术研究
包括关键词关联规则、Apriori算法、数据挖掘、决策树、数据仓库、聚类以及数据分析。其研究主要集中在关联规则算法的研究与改进,决策树算法研究与应用,数据仓库关键技术研究,旨在通过改进技术提高数据挖掘的质量和效率,保证数据分析的正确性和有效性。
(2)图书馆知识服务研究
包括关键词数字图书馆、知识服务、大数据等,其研究主要集中在图书馆知识发现系统研究,数字图书馆知识服务平台研究,图书馆个性化服务研究。此类研究主要依托图书馆的海量资源、成熟的服务体系及大量用户的知识需求,通过知识挖掘对各类文献资源进行整合分析,针对不同用户的需求为其提供精准的知识发现服务,旨在通过提供更好的信息服务内容和手段,提升用户体验[6]。
(3)知识发现应用领域研究
包括关键词物联网、聚类分析、关联数据、可视化、中医药、本体、知识管理,其研究内容集中在将知识发现理论应用物联网、关联数据、中医药等领域,当前关联数据被W3C推荐为语义网的最佳实践,利用关联数据数据量大、结构统一的特点,将知识发现与关联数据结合进行语义网环境下的知识发现[7];在中医药领域,通过构建中医药学的本体工程进行中医药学知识发现,利用知识发现技术进行中医病案数据库研究、探索中医诊疗规律[8]等方面也成为研究热点。
(4)粗糙集理论与应用研究
包括关键词粗糙集、属性约简、形式概念分析、概念格、属性偏序结构,其研究重点在粗糙集理论与应用研究上。将粗糙集理论应用于知识发现研究,可以大幅提高数据处理的能力[9]。
4 结 语
本文主要以CNKI上发表的知识发现相关研究论文为基础,基于社会网络分析和共词聚类分析,聚焦知识发现研究热点,结果显示近年来,知识发现领域研究热点集中在提高知识发现能力以及知识发现与各领域结合方面,在知识发现挖掘方法、中医药学、生物医学等领域发展较快,并已有一些研究成果, 随着数据挖掘方法技术的不断提高,知识发现将在各领域有更广泛的应用。
主要参考文献
[1]KDD2016Program.http://www.kdd.org/kdd2016/program/accepted-papers.html[EB/OL].(2017-01-15)[2017-12-09].
[2]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012(1):50-58.
[3]钟伟金. 共词分析法应用的规范化研究——主题词和关键词的聚类效果对比分析[J]. 图书情报工作,2011,55(6):114-118.
[4]王学东,杜晓曦,石自更. 面向学术博客知识交流的社会网络中心性分析[J]. 情报科学,2013(3):3-8,16.
[5]白雪. 聚类分析中的相似性度量及其应用研究[D].北京:北京交通大学,2012.
[6]高劲松,李迎迎,梁艳琪,等. 基于文献数据可视化的知识发现模型研究[J]. 图书馆学研究,2016(2):49-56.
[7]顾洪涛. 我国高校图书馆研究热点探析[D].大连:辽宁师范大学,2014.
[8]陈兰兰. 基于社会网络分析和共词分析的国内关联数据研究[J]. 图书与情报,2013(5):129-132.
[9]农田泉. 知识发现技术在中医药研究中的应用[J]. 中医学报,2013(2):210-211.
[10]王国胤,姚一豫,于洪. 粗糙集理论与应用研究综述[J]. 计算机学报,2009(7):1229-1246.