我国失效专利研究现状及热点与趋势分析
2010-10-10韩兵兵卢章平
韩兵兵 卢章平 王 君
(江苏大学科技信息研究所 镇江 212013)
·实践研究·
我国失效专利研究现状及热点与趋势分析
韩兵兵 卢章平 王 君
(江苏大学科技信息研究所 镇江 212013)
通过词频分析和共词分析等方法,以中国知网(CNKI)数据库为数据源,对1995-2009年失效专利相关论文进行分析。采用多元统计方法中的因子分析、聚类分析、多维尺度分析等方法,分析我国现阶段失效专利研究的现状、热点及趋势。
失效专利 词频分析 共词分析 多元统计方法
1 引言
失效专利是因为各种原因失去专利权及专利申请权的专利,失效专利是没有法律保护的专利,其信息量巨大。就我国来说,自1985年实施专利法到2007年12月,在全部的208万余件的专利中只有85万余件有效[1],失效专利则占59.6%。在全球总量达5 000余万件的专利中,只有62余万件在我国有效,其余4 938多万件专利不受我国法律保护,可以为我国免费使用。本文对失效专利研究相关论文进行词频分析及共词分析,来考察我国失效专利研究的现状、热点和发展趋势。
本文以中国知网(CNKI)的《中国期刊全文数据库》为数据来源,以“失效专利”为检索词,通过“主题”的检索途径,采用“精确”的检索方式,在1995年到2009年共检索到262篇文献,剔除重复及无效的文章,有161篇相关论文。
2 数据处理与分析
2.1 获得高频关键词
将所检索到的161篇论文的相关信息下载,并导入Excel2003进行关键词及词频统计,共得到131个关键词,累计出现了254次。将相同或有类似意思关键词合并,例如: “Internet”、“网络”、“因特网”、“互联网”,“检索”、“信息检索”等进行合并;同时去除“失效专利”、“专利”等对分析主题没有实际意义的关键词,得到112个关键词,累计出现212次。按词频对所得关键词进行排序,其中频次大于3的关键词有15个,累计出现102次,约占总数的48%(如表1)。这15个关键词在整个失效专利研究的论文关键词中出现频率较高,在一定程度上可以反映失效专利研究的一些特点。
表1 1995年-2009年失效专利热点关键词
2.2 构造共词矩阵
共词分析法利用文献集当中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献中出现的频率,便可形成一个由这些相关联的词汇对所组成的共词网络。网络内节点之同的远近便可以反映主题内容的亲疏关系。共词分析就是以此为原理,将文献主题词作为分析对象,利用包容系数、聚类分析等多种统计分析方法,把众多分析对象之间错综复杂的共词网状关系简化为以数值、图形直观地表示出来的过程。
依据共词分析构造共词矩阵,将提取的15个高频关键词,进行两两检索,统计其在161篇论文关键词中同时出现的频率,从而形成一个15X15的共词矩阵表(表2)。对角线上的数据为该关键词在所有论文中出现的频次,例如表2中左上角的18,它对应的横向、纵向均为1,表示序号为1的关键词“检索”在论文中出现的次数。非对角线上的数据为其对应的横向、纵向序号所代表的关键词同时在一篇论文中出现的次数,例如表2中横向序号2与纵向序号1所交叉位置的数据11为关键词“检索”、“Internet”同时在一篇论文中出现11次。
表2 失效专利论文高频关键词共词矩阵
表2所表示的共词矩阵为共词统计的绝对次数,由于在实际的计量化分析中,词对频率是绝对值,难以反映词与词之间真正的相互依赖程度,因此有必要对词频率进行包容化处理。包容化处理的结果能反映出两词间的联系紧密程度。本文采用Ochiia系数法对共词矩阵进行处理,将共词矩阵转化为相关矩阵。将共词矩阵中的每个数字都除以与之相关的两个词频乘积的开方,计算公式为:Ochiia系数=A词、B词两个词同时出现的次数/(A词出现总频次的开方*B词出现总频数的开方)。经过计算可将表2转化为表3。
表3 失效专利论文高频关键词相关矩阵
在表3中的每个数据都表示对应的两个关键词的亲疏程度即相关度,数值越大则表明关键词之间的距离越近,相关度越高;反之,数值越小则表明关键词之间的距离越远,相关度越低。表中数据为两两相关程度,一个关键词与其他关键词的相关性,通过对相关数据采取不同的分析方法,可以分析现阶段的研究热点及未来的趋势。
由于相关矩阵表3数据中的0值较多,不容易说明程度,可以用1分别减去相关矩阵中所有的数据,即可得到表示两词之间相异程度的相异矩阵。与相关矩阵正相反,相异矩阵中的数据表示不相关的程度,即数值越大表明对应两个关键词的距离越远,相关度越低,反之则表明相关度越高。
2.3 多元统计分析
把表3中的数据导入SPSS14.0,进行多元统计分析。多元统计分析包括一些系列的统计分析方法,本文主要采用因子分析、聚类分析和多维尺度分析三种方法。
2.3.1 因子分析 因子分析(factor analysis)的目标是用尽可能少的因子去描述众多指标间的联系,其基本思想是把研究对象的变量分组,使同组内的变量相关性较高,不同组的变量相关性较低。每组变量称为一个公共因子,这样几个公共因子可以反映原资料大部分信息。将相关矩阵表3的数据导入spss14.0采用主成分分析法(Principal Component Analysis)进行因子分析,可以得到各个因子的特征根及其方差贡献率,如表4所示。其中可以发现前6个因子的特征值大于1,而且这6个因子对应的累积方差贡献率达到了79%,可以认为这6个因子在某种程度上代表了这15个关键词。使用最大方差正交旋转法(Varimax)对数据进行旋转得到旋转后的因子载荷矩阵,然后通过载荷矩阵内的每个因子贡献情况,可以对15个因子进行分类:专利权利用、网络检索、专利利用、专利与创新、专利文献利用,企业专利利用。
表4 总方差解释表
Extraction Method: Principal Component Analysis.
2.3.2 聚类分析 聚类分析(cluster analysis)基本思想是把相似程度较大的变量聚合为一类,把另外一些彼此之间相似程度较大的变量聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的变量都聚合完毕,最后再把整个分类系统画成一张谱系图,用它把所有变量间的亲疏关系表示出来。把表3相关矩阵导入spss14.0,采用类间平均连锁法(Between-groups Linkage)进行聚类,结果如图1所示。
由聚类分析并结合因子分析结果,可以分析出以下研究热点:
(1)互联网上的失效专利信息利用。世界上大部分国家都将本国的专利数据库加入了网络检索的入口,为失效专利的利用提供了方便,但各国的检索及专利信息存储等方式的不同,对失效专利利用造成了障碍。
(2)专利的企业利用。专利是以公开换取保护,既促进了专利的利用,又有效的保护了发明人的积极性,促进了技术创新,专利的公开也为企业技术的进步提供了契机。在此类中“利用”与“专利技术”,“企业”、“技术创新”与“专利文献”分别聚合一起,形成2小类,这2小类再次聚合形成大类。可以发现企业利用专利的两个方向,一是利用专利文献进行创新,二是企业对专利技术的利用。
(3)专利战略。企业需要专利战略,形成战略之初需要对本企业、本行业的专利进行分析,确定本企业所处位置,根据本企业的发展方向,提出专利战略。在专利战略形成过程及实际应用过程中,分析相关专利的法律状态,进行侵权、被侵权的研究。
(4)专利权利用。专利权是一种财产权,从聚类过程中可以发现首先是开发与价值聚合,然后与专利权聚合,再与策略聚合形成大类,此过程紧紧与实际应用失效专利相扣合。
图1 聚类龙树形图
2.3.3 多维尺度分析 多维尺度分析通过低维空间(本文是二维空间)展现关键词之间的联系,并利用平面距离来反映关键词之间的关联程度及中心词。把表3相关矩阵数据导入spss14.0进行多维尺度分析(Multidimensional Scaling),加以整理做出多维尺度图(图2),图中有高度相似性的点聚集到一起,形成科学共同体,并且,越居中的关键词与其他关键词的联系越多,在该领域中的地域越核心,反之则越独立。
虽然本文根据因子分析与聚类分析的结果将高频关键词分为 4类,并进行了说明,事实上因子分析与聚类分析是对数据进行简化、分类,但是没有反映出词与词、类与类之间的关系,多维尺度分析可以与前两者互补短长,它虽不能明确界定类别,但可以直观地反映关键词之间的关联程度。
图2 多维尺度图
如图2所示,根据关键词与中心的距离,关键词之间的距离,把关键词分布划为了3个领域,在右上圈部分,由于关键词分布越是远离中心区域的针对其的研究越少,可见此领域中以“专利技术”为中心,“检索”在此区域内较“专利战略”等词重要性要小,并且区域内词与词之间的距离比较大,范围内整体跨度较大,联系不紧密研究的密度不够高,热点趋势不明显。在左方圈内,存在5个关键词,除在X轴上下的2组词内部比较相近外,其它的距离都很远,密度同样不够高。由于技术创新与策略、利用与开发距离中心点都较远,可以发现这个领域远离了主流位置,研究逐渐减少,特别是失效专利与网络的结合研究更是逐渐趋于狭小。在中下方的区域内有4个关键词,这4个关键词距离紧密,相互关联度大,同时与中心的距离也比较近,说明企业的失效专利信息分析利用是研究热点。
3 结论与不足
本文将我国失效专利研究相关论文进行了统计并对关键词进行了排序,采用共词分析方法对得到的15个高频关键词依次进行了因子、聚类、多维尺度分析,在分析客观数据的基础上,比较直观地展示了一段时间内失效专利研究的结构、热点和趋势,为同行者提供一定的参考。
本研究也存在一些不足:在采集数据过程中只采用了中国知网(CNKI)的期刊全文数据库,没有同时采用其他数据库资源;确定高频关键词主要采用的是主观经验判断某阙值以上的关键词为高频关键词;对原始矩阵进行包容化处理有多种方法例如spearman法,而采用ochiia法是多数中国研究者的做法;聚类分析及多维尺度分析结果图是客观数据的一种形象表达,但在对图的说明解释上也不可避免的带有作者对相关理论主观的理解和认识,可能对分析结果产生部分影响。
[1] 国家知识产权局. 国内外三种专利有效状况[EB/OL].[2009-6-31]. http://www.sipo.gov.cn/sipo2008/ghfzs/zltjjb/jianbao/year2007/c/c1.html
[2] 张文彤. 世界优秀统计工具SPSS11统计分析教程高级篇[M].北京: 北京希望电子出版社,2002.
[2] 朱安青,周金元.我国科技查新研究热点及趋势分析——共词分析视角[J].图书情报研究,2009(4):45-49.
[3] 胡志刚,李志红.近十年我国科学学的学术群体与研究热点分析——基于9种科学学类期刊的科学计量学研究[J].科学学与科学技术管理,2009(7):13-18.
[5] 钟伟金,李 佳.共词分析法研究(一)——共词分析的过程与方式[J].情报杂志,2008(5):70-72.
[6] 钟伟金,李 佳,杨兴菊.共词分析法研究(三)——共词聚类分析法的原理与特点[J].情报杂志,2008(7):118-120.
AnAnalysisoftheStatus,theHotIssuesandtheTrendoftheExpiredPatentResearch
Han Bingbing, Lu Zhangping, Wang Jun
Institute of Science and Technology Information, Jiangsu University, Zhenjiang 212013, China
Based on the data from CNKI, this paper analyses the academic papers about expired patents from 1995 to 2009 by means of word frequency analysis and co-word analysis and studies the status,the hot issues and the trend of the expired patent research with factor analysis, cluster analysis and multi-dimensional analisis.
expired patent; word frequency analysis; co-word analysis; multi-statistical analysis
G353.1
韩兵兵,男,1981年生,江苏大学科技信息研究所硕士研究生,研究方向为竞争情报、专利情报,发表论文1篇;卢章平,男,1958年生,江苏大学图书馆馆长,教授,博士生导师,研究方向为竞争情报、专利情报,发表论文100余篇;王 君,女,1985年生,江苏大学科技信息研究所硕士研究生,研究方向为竞争情报、专利情报。