中国知网关键词词频统计软件设计及其在出版工作中应用研究

2020-03-01朱玉强范翠丽

邯郸职业技术学院学报 2020年4期

朱玉强范翠丽

(1.山东师范大学图书馆，济南 250014；2.山东科学技术出版社，济南 250002)

文献调查不容易被外界干扰，只需投入少量经费与人力，省时且效率高，可方便快捷地了解前人和他人劳动成果，是获取知识的捷径。科研人员在申请课题、进行科学研究、撰写学术论文前往往要对研究方向进行文献调研，从而有效避免重复研究。本文编制程序可在极短时间内对大量文献的关键词词频进行统计，为调查人员提供数据支撑及简单的可视化指标。

1 相关研究及实践

文献调查往往涉及众多文献种类及格式，对其内容整理分析一般包括定性分析、定量分析及定性定量相结合分析3种。内容分析法最早应用于新闻传播领域，20世纪60年代末西方图书情报学界将其列入图情学方法论体系，之后不断发展完善，引入了系统论、信息论、符号学、语义学、统计学等方法或技术，[1]一般通过人工编码将大量碎片化、属性化的文字转换为系统化、定量化的信息，类似概率论与数量统计中引入的随机变量，从而使研究对象易于分析、便于统计，进而归纳发现有价值的结论。[2]

广义上关键词指出现在文献篇名、摘要或正文中表达文献中心思想、有实际意义的自然语言词汇；狭义上学术论文的关键词由论文作者自行设置并写在文章“关键词”一栏，作者给出的关键词或许未能严格遵守《国家标准GB7713-87 科学论文编写格式》进行，但鉴于作者对作品把握的准确程度，其给出的关键词很具参考性。

奉国和等[3]构建时间-关键词频次矩阵，设计时间加权关键词词频分析模型，用于揭示学科研究热点及变化趋势。余丰民[4]通过统计学术论文关键词词频初步构建研究热点漂移程度计算模型，揭示学科研究热点的变化程度和关键词词频分布规律。李建伟[5]基于2018年编辑出版学学术论文关键词词频分析，得出2018年编辑出版的研究热点主要集中在新业态、新环境、新技术和新内容四个层面。陈玲丽[6]等采用关键词词频分析法分析了我国医疗联合体研究文献的研究内容、现状及趋势，为医联体研究提供参考。王海峰[7]对国内25种新闻传播类核心期刊发文关键词词频进行分析，研究了我国新闻传播专业学术研究热点及基本趋势，表明跨学科与跨领域研究在新闻传播专业领域总体呈上升趋势等。上述及类似论文在做关键词词频分析时，有的明确说明所采集论文关键词为作者原文给出的关键词，有的则没有，没做具体界定的则可能来自数据库厂商后期修订、追加等途径。处理方法一般通过手工导出文献，利用Excel多步操作完成。

本文编制程序，可快速提取、统计论文中作者给出的关键词，目的明确，针对性强，基于导出文献全自动提取、去重、统计年度词频分布，方便快捷，节省人力物力。

2 系统设计思路与实施方案

2.1 系统功能架构

用户首先在中国知网构建检索策略进行文献检索，确定并选取欲调研文献范围，使用“导出/参考文献”按钮，以“知网研学(原E-Study)”格式导出纯文本型参考文献。基于导出的参考文献，软件要实现如下功能：(1)提取参考文献中所有作者给出的关键词并去重；(2)统计各关键词在文献发表时段(以年为单位)出现频次；(3)统计各关键词在文献所有时间跨度总频次；(4)结果以Excel表写出，方便按需做更多处理。

2.2 技术方案

主要流程如图1所示，抽提作者给出关键词、抽提论文发表各年度可使用多线程同步进行。

3 关键方法与技术

3.1 取格式化文本多段中间内容

以“知网研学(原E-Study)”格式导出的纯文本型参考文献格式固定，如下所示。

DataType：1

Title-题名：×××

Author-作者：×××；

Source-刊名：×××

Year-年：2015

PubTime-出版时间：2015-01-01

Keyword-关键词：×××；×××；×××

Summary-摘要：×××。

Period-期：01

PageCount-页数：2

Page-页码：26-27

SrcDatabase-来源数据库：期刊Organ-机构：法律出版社；

Link-链接：×××

以取“Keyword-关键词”为例，只需取多组文本串“Keyword-关键词”与“Summary-摘要”中间文本并去除换行符即可。实践中可先使用特征字串如“DataType：1”分割各篇论文数据进文本数组，遍历数组各成员，在成员内部执行取中间文本操作，算法描述如下：

CString GetMid(CString str，CString strL，CString strR)

{

len = str.Find(strL) + strL.GetLength()；

len2 = str.Find(strR)；

strs = str.Left(len2)；

str = strs.Right(strs.GetLength()-len)；

return str；

}

取回关键词需执行去重操作，数据量小于10万条时使用任一常规方法均可实现，否则用HASH算法速度更快。哈希函数构造方法有多种，以对文本串去重为例，算法描述如下，去重同时统计文本串重复次数：

public void QC()

{

String a[]={"a"，"b"，"b"，"c"，"c"，"c"}；

Map map = new HashMap()；

int count=0；

for(int i=0；i

{

if(map. containsKey(a[i]))

count= (Integer) map.get(a[i])；

}

else

{

count=0；

}

map.put(a[i]，++count)；

}

3.2 取某文本在另一文本中出现频次

如3.1在文本去重时已对文本串进行频次统计，实践中还需要基于整体文本对抽提出来的指定文本进行频次统计，且与年度关联建立年度频次分布表，核心工作为取某文本在另一文本中出现频次，算法描述为：

Function Count(Str，toSearch)Dim Times，WordLen

Times = 0

WordLen = Len(toSearch)

For i = 1 To Len(Str)+1-WordLen If Mid(Str，i，WordLen) = toSearch Then Times = Times + 1

End If

FindCount = Times

End function

4 应用效果评估

程序可稳定运行于32位和64位Windows7与Windows10操作系统，运行界面如图2所示。

图2 程序主界面

在中国知网中，限定时间为2015年1月1日至2020年4月13日，发文机构名称限定包含“出版社”，在全部期刊范围内检索主题包含“数字出版”的论文，共获得1160条结果，去重后共1743个关键词，写出的Excel表如图3所示。

图3 程序自动写出的Excel表

在英特尔奔腾处理器2.90GHz、内存4.00GB电脑环境下，写出Excel表共耗时5秒。图4展示了总频次排在前30位的关键词绘制的柱状-折线图。

图4 选定关键词的柱状-折线图

由所得数据及柱状-折线图走势，大致可以推断，近五年来出版机构对“数字出版”的研究，主要表现在：(1)关于传统出版与数字出版的对比、讨论；(2)出版模式转型的迫切性与挣扎；(3)数字出版与大数据、新媒体、互联网+、知识服务等的融合；(4)数字出版对版权的重视保护；(5)数字出版对教辅类图书的关注。用户还可以根据年度频次按需做进一步分析，此不赘述。