国内开放存取研究的知识图谱与热点主题分析
2016-06-28张永军
张永军
合肥学院学报编辑部,安徽合肥,230601
国内开放存取研究的知识图谱与热点主题分析
张永军
合肥学院学报编辑部,安徽合肥,230601
摘要:从共词分析的角度对我国开放存取研究领域的高频关键词进行研究,以定量与定性结合的方式来进行相应的分析,并采取多元分析技术构建高频关键词的相关及相异矩阵,运用SPSS软件绘制出开放存取研究领域的聚类分析及多维尺度可视化图谱,通过对可视化图谱进行分析,展现各关键词的不同聚类结果,探讨国内开放存取领域的研究现状与热点,并从开放存取对学术交流的影响研究、开放存取期刊研究、开放存取仓储研究等方面进行阐述。
关键词:开放存取;共词分析;知识地图;概念网络
为了解决“学术期刊出版危机”,国际学术界、出版界、信息传播界采取了开放存取(Open Access)或开放获取行为,成功地推动了科研成果利用互联网进行自由传播。其作用可以概括为两个方面:一方面是促进利用互联网进行学术交流与出版,保障了科学信息的保存、提升了科学研究的公共利用程度,从而提高科学研究的效率;另一方面是促进了科学及人文信息的广泛交流。开放存取自出现以来,OA期刊和OA仓储迅速发展,学界上也取得了丰硕的成果。
1研究方法
本文采用内容分析法——共词分析法(co-word analysis),它是通过判断学科领域中主题之间的关系,分析某一学科领域研究方向或研究主题的专业术语共同出现在一篇文献中的现象,从而展现该学科的研究结构与内容。该方法成立的前提条件是:首先必须认识到关键词是文章主旨的浓缩, 如果两篇文章相同关键词有两个以上,则认为这两篇文章在研究主题的定义、理论体系甚至在方法上是成正相关的,内容是相近的。共词文章数量越大,表明这类关键词“距离”就越近[1]。利用现代的多元统计技术如聚类分析(Cluster Analysis)、因子分析(Factor analysis)和多维尺度分析(Multidimensional Scale Analysis)等,可以依据“距离”这个概念来分类一个学科内的重要关键词,从而得到该学科领域的研究现状与研究内容。就目前文献研究热点来看,共词分析法主要是通过主题词或关键词分析鉴别某一学科研究热点或主要的知识结构[2]。共词分析法是对当下已发表文献的直接统计,它不同于共被引分析法,共词分析法是寻找目前已发表论文集中关注的主题,反映的是在趋势形成之后的焦点。共词分析方法最早是在20世纪70年代中后期被法国文献
计量学家引入的[3]。时至今日,该方法得到了逐步的完善和广泛的应用。
2关键词的获取与预处理
2.1关键词的获取
词频统计可以借助EXCEL软件进行,选择的关键词在OA研究论文中出现频次大于25,确定30个高频关键词作为共词分析的依据(表1)。
2.2预处理关键词
开放存取研究论文中出现频率高的关键词,在一定程度上可以代表当前OA的研究热点。对所选择的30个关键词进行两两配对(上述统计结果是在1632条文献中进行的),统计频次,构成共词矩阵30×30,关键词出现的频次就是主对角线上的值,如表2所示。
表2 共词矩阵(部分)
共词矩阵中两个关键词各自词频大小值直接受这两个关键词共同出现频次的影响,此矩阵是一个对称矩阵。此时,还需引入一个表示关键词共现相对强度的指标,才能真正揭示关键词之间的共现关系。在文献计量分析学中,该指标应用较为广泛的是Ochiia系数、Jaccard指数[4]。此处选择Ochiia 系数法,为了揭示关键词的共现关系,消除频次悬殊造成的影响,可将共词矩阵中的每个数字都除以与之相关的两个词总频次开方的乘积,进而将共词矩阵转化为相关矩阵。其计算公式是:
Ochiia系数=
经上式计算,矩阵中数值为1的表示某词自身的相关程度,从而得到具体的相关矩阵(见表3)。
表3 Ochiia相关矩阵(部分)
相关矩阵中的数字为相似数据,为了得到表示两词间相异程度的相异矩阵(表4),用“1”减去矩阵中的相似数据。相异矩阵与相关矩阵不同,该数据中的数据是不相似数据,数值越大(即相似度越差),说明两关键词之间的距离越远。
3研究热点关键词的共词分析
3.1聚类分析
把没有分类信息的资料按相似程度进行归类,从而降低该类信息的维数,这是研究“物以类聚”的
表4 Ochiia相异矩阵(部分)
一种方法,此法称为聚类分析(Cluster Analysis)。依据不同个体之间差异很大,而同一类个体之间有较大的相似性,对事物本身的特性进行分类,前提条件是可以认为所有被研究的变量之间存在着不同程度的相似性(亲疏关系)[2]。下面将上述处理后的相异矩阵导入到SPSS软件中进行聚类分析,采用Ward's Method与Count中的Phi-squareMeasure方法,选择Hierarchical Cluster,得到聚类分析树形图(图1)和层次聚类分析凝聚状态表(表5)。
图1 聚类分析树形图
通过聚类分析树状图,可以清晰地看到聚类分析中每一次类合并的具体情况。SPSS软件将凝聚过程近似地表现在图上,各类间的距离用数值0~25进行映射。关键词之间的亲疏程度可以通过聚类分析的结果进行反映,将“亲缘关系”较近的关键词再重新组合起来。从图1与表5的凝聚结果看,它们的结果是相近似的。本文将类别确定为6类,其分层聚类形成的聚类结果树形图(图1)。
表5 层次聚类分析的凝聚状态表(部分)
3.2SPSS知识地图分析
多元统计分析方法中的多维尺度分析(MultiDimensional Scaling,MDS)是分析研究对象的相似性或差异性[2]。利用MDS中的ALSCAL创建多维空间感知图,选用欧基里德距离,选取“square symmetric”描述关键词的数据结构。一般在为0.20以内的压力系数(Stress,它是拟合度量值)是可接受的(其值越小说明拟合度越好),在0.60以上的判定系数(RSQ)是可接受的(值越大越好)[5]。此处得到的数据压力系数为0.18872,判定系数为0.85609,结果满意。
从图2可以看出,开放存取对学术交流的影响研究、开放存取期刊研究、开放存取仓储研究及开放存取资源长期保存研究等主题,是目前国内开放存取研究的热点。
图2 多维尺度分析结果
4国内开放存取研究热点
4.1开放存取对学术交流的影响研究
随着OA理论研究及实践的深入,越来越多的组织和机构推出开放获取政策,传统的基于印本的学术交流模式发生了改变,Open Access学术交流模式受到欢迎,不仅实现了学术资源的开放获取,而且有利于知识的创新。刘锦宏等对OA学术交流模式进行研究,从作者、研究成果、信息中介、读者及读者评议等5个要素提出开放获取学术交流模式的结构[6](图3),揭示了OA对促进创新的动态演化过程。
图3 开放获取学术交流模式的结构
学术交流受OA 的影响主要有如下5个方面[7]:(1)基于学术交流参与者的影响层面。OA 的无偿支付性、快速获取性可以迅速为广大科研人员掌握世界范围内最新研究成果成为可能,从而加速科研人员研究进程和成果转化。(2)基于学术交流作用层面。OA 是学术成果的平台,为科研人员及时获取科研信息提供便利,降低了人们获取信息的成本,从而提高了学术交流的开放性、交互性与效率,丰富了学术交流的内容。(3)基于学术交流方式的影响层面。OA 打破了传统学术交流的陈旧模式(作者—出版商—图书馆—用户),破解了传统学术交流中的价格、权限等问题,使得OA具备了非正式交流与传统正式交流两种模式的优势。(4)基于学术成果影响力的层面。OA 期刊的学术影响力正在持续上升,因此OA 可以提升科研人员知名度及其成果的学术影响力。(5)基于学术出版的影响层面。OA 在某种程度上打破了传统科研成果的出版方式,与传统出版模式相比,OA 信息发布的时效性强、过程简便,是传统出版方式不能比拟的。
4.2开放存取期刊研究
对OA期刊的出版模式研究通常包括经济机制、质量控制和知识产权,尽管OA期刊的评价问题与质量控制有着密切的联系,但对其研究往往是相对独立的。OA期刊一般分为三种类型:绿色OA(Green OA)、金色OA(Gold OA)和混合型OA(Hybrid OA)。与传统期刊相比较,OA期刊有以下特征:(1)版权方面。OA期刊版权由作者保留,例如署名权和保护作品完整权等,这与传统出版方式要求把部分权利转让给出版商不同。从使用角度而言,他人可以通过开放存取免费使用已经发表的研究成果,现行版权法明确规定作者不仅拥有限制作品传播的权利,同时也拥有自由传播作品的权利,所以这种出版模式与现行的版权法并不冲突。(2)使用权方面。传统学术期刊卖给用户的只有期刊的使用权。但OA不同,当作者同意其作品以开放存取方式出版时,即说明用户已经通过“创作共用(Creative Commons)”等许可协议享受了部分版权(包括阅读、下载、复制、分享、保存、打印、检索、链接等),而作者仅仅保留的是精神权利和阻止恶意传播的复制权利。(3)出版模式。与传统学术期刊出版模式不同,OA期刊的出版模式为:作者投稿(一般需支付审稿费)→OA期刊刊物审稿、组织同行评审→网络传播→读者或图书馆免费使用。 传统学术期刊的出版模式通常采用读者付费的方式;OA期刊出版模式则大都采用作者付费的方式。(4)传播方式与速度。OA期刊强调开放传播,检索和阅览途径多,覆盖整个互联网;重视信息的直接性和交互性,重视学术交流的时效性。尤其是快捷的访问方式可以大大提高论文的被引频次。随着OA的发展,越来越多的刊物加入OA的行列,如《自然》系列期刊将于2017年1月新增5个子刊:《Nature Astronomy》《Nature Biomedical Engineering》《Nature Ecology & Evolution》《Nature Human Behaviour》和《Nature Reviews Chemistry》。这5种新刊将与其他39个冠名《自然》的订阅型、纯在线期刊一起,在同一平台“nature.com”上出版。该平台上的期刊还包括排名最高的多学科类开放获取期刊《Nature Communications》。去年,发表在“nature.com”上的内容已有超过60%采用了开放获取形式,供读者免费获取。
4.3开放存取仓储研究
OA存储也称为OA知识库,包括基于学科的存储和基于机构的存储。我国大学和研究机构建立OA 仓储是大势所趋,科研人员对自存储的态度和意愿将是影响其建设的关键。国外一些机构曾对科研人员的自存储态度进行了调研,如英国Key Perspectives公司受JISC/OSI委托所做的一项全世界范围内的调查,为英国各机构制订自存储政策提供了依据[8]。出版社对于OA存储的政策:(1)绿色政策,出版社允许作者存储未经同行评议的投稿手稿和经过同行评议修改的最终录用稿;(2)蓝色政策,出版社允许作者只可存储录用稿;(3)黄色政策,出版社允许作者只可存储投稿手稿(部分出版社允许在限制开放时间下可存储录用稿);(4)白色政策,出版社没有明确允许作者存储论文的任何版本。存储地点:一般出版社规定只能存储到作者个人网站、所在机构的知识库和资助机构规定的专门知识库中。开放获取时间:多数出版社规定了论文存储后的禁止开放期,同一出版社的不同期刊的禁用期也往往不同,多为12个月。出版社均要求作者和接受存储的知识库在知识库上提供完整的出版来源信息,并提供指向期刊网站的URL。
5结 语
本文应用共词分析方法,通过聚类、多维尺度等多元统计方法,以定量与定性结合的方式进行相应的分析,以知识图谱的形式进行直观表现,得知我国开放存取研究的一些情况。需要说明的是,本研究属于探索性研究,难免存在一定的局限性。
参考文献:
[1]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006(3):88-92
[2]张勤,马费成.国外知识管理研究范式:以共词分析为方法[J].管理科学学报,2007(6):65-75
[3]Law J,Bauin S,Courtial J P,et al .Ploicy and the mapping of scientific change:A co-word analysis of research into environmental acidification[J].Scientometrics,1988(14):251-264
[4]梁立明,谢彩霞.词频分析法用于我国纳米科技研究动向分析[J].科学学研究,2003(2):138-142
[5]邱均平,李江.基于引文分析法的国内“参考咨询”的研究现状分析[J].图书情报知识,2007(1):54-57
[6]刘锦宏,李思洁,徐丽芳.开放获取学术交流模式研究[J].科技与出版,2013(3):83-85
[7]完颜邓,盛小平.基于共词分析的国内开放获取研究主题探析[J].图书情报工作,2013(3):94-100
[8]何燕,初景利,张冬荣.我国科研人员自存储态度调查:以中国科学院科研人员为例[J].图书情报工作,2008(5):121-124
(责任编辑:刘小阳)
doi:10.3969/j.issn.1673-2006.2016.05.009
收稿日期:2016-01-25
基金项目:中国科技期刊学研究基金“高校科技期刊改革发展路径初探”(GBJXC1267);安徽高校省级人文社会科学研究项目(SK2013B084)。
作者简介:张永军(1975-),安徽合肥人,硕士,副编审,主要研究方向:编辑学。
中图分类号:TP315
文献标识码:A
文章编号:1673-2006(2016)05-0031-05