APP下载

基于因子聚类分析的专利综合评价研究

2012-04-29李瑞璇王学思

现代情报 2012年9期
关键词:聚类分析因子分析数据挖掘

李瑞璇 王学思

〔摘 要〕对广东省21个城市进行地区专利综合评价,为达到数据简化、客观赋权、区域间比较的功能,采用文献调查法选取地区专利综合评价指标24个,并结合广东省知识产权局的专利统计信息的基本数据,再在此基础上进行因子分析,将多项指标聚合为新的因子,并用提取、计算出的6个主因子得分进行系统聚类分析,得出广东省各市专利综合实力的分类。该研究帮助相关人员了解地区专利的优势和不足,从而为地区专利发展提供决策支持。

〔关键词〕因子分析;聚类分析;数据挖掘;专利评价

〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2012)09-0172-06

工业革命之后,世界上的创新发明越来越多,而专利的诞生,是为了保证发明人的创造活动得到一定量的回报,以激励更多的发明研究工作。1624年英国颁布了《垄断法》,这是早期专利制度的雏形,我国也于1985年颁布了《专利法》[1]。我国经济经过30多年的发展,目前正经历着从劳动密集型向高科产业型的方向发展,而判断是否转型成功的标尺之一就在于专利的发展状况,专利是企业或国家在各种竞争中取得优势的关键因素。广东省一直处于全国经济发展的前沿,但各地之间的专利发展情况不均,为了能找出地区间的差距并有针对性地采取措施,对广东省各地区的专利综合评价应客观、全面、科学,为此,本文选用目前较为权威、科学的专利评价指标体系,在此基础上对广东省2010年的专利统计数据进行因子分析和聚类分析,以期有效促进广东省各地区专利水平的提高和发展。

1 专利评价指标体系

对专利评价指标体系的选用也是对专利综合实力进行评价的一个关键步骤,专利评价指标是相对于原始数据的二次数据,用来进行分析的二次数据是否准确、客观、全面,影响着分析结果的好坏。

我国专利制度实施得比较晚,对专利指标的研究还处于初期阶段,目前的研究热点不仅仅只注重专利数量,同时也重视专利质量以及专利综合评价,如黄庆[2](2004)等的《专利评价指标体系——专利评价指标体系的设计和构建》,肖国华等[3](2008)《专利分析评价指标体系的设计与构建》,张冬梅[4]等(2006)《专利情报分析指标体系——分析方法与技术》,阮梅花[5]等(2011)《企业自主创新能力评价的专利指标体系构建初探》等等,结合国外Huang Z[6]的研究来总结以上所有文献,本文在选取专利评价体系遵循以下几个方面:

(1)较客观、科学、全面、准确地表现我国在世界上、我国不同地区或者各个行业乃至企业的专利综合实力;

(2)“量”和“率”结合的平衡。“量”指的是总量,用来评价总体实力情况;“率”用来评价相对强度情况。

(3)实用并具有指导性。

最终,本文选取的地区专利综合评价指标由表1所示:

2 专利综合评价的方法

在进行数据分析之前,首先对本文运用的因子分析、聚类分析进行介绍和说明。

2.1 因子分析法

因子分析法是指从研究指标相关矩阵内部的依赖关系出发,把一些信息重叠、具有错综复杂关系的变量归结为少数几个不相关的综合因子的一种多元统计分析方法,基本思想是:根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量不相关或相关性较低,每组变量代表一个基本结构——即公共因子[7]。即用较少的综合指标分别综合存在于各变量中的各类信息,而综合指标之间彼此不相关,各指标代表的信息不重叠。根据因子分析的目的得知,综合指标应该比原始变量少,但包含的信息量应该相对损失较少[8]。

因子分析的基本原理[9]是:选择i个主分量Z1,Z2,……,Zi,其中Zi=ai1*F1+ai2*F2+……+aim*Fi+ε,F1、F2 、…、Fi称为公共因子,ε称为以Zi的特殊因子,aim是第i个变量在第m个因子上的负荷,它一方面表示Zi对Fi的依赖程度,绝对值越大,密切程度越高;另一方面也反映了变量Zi对公共因子Fi的相对重要性,把aim称为因子荷载。该模型中的因子载荷矩阵需要用适当的方法进行估计,使得各个公共因子之间相互独立;然后,分别计算出公共因子Fi的得分:F=f1*Z1+f2*Z2+……+fi*Zi,fi作为每个主分量Zi的方差贡献率的权数(即因子得分系数)。最后利用此综合评价函数进行综合评价,即以每个因子的方差贡献率占因子总方差贡献率的比重作为权数进行加权计算综合得分。

本文使用因子分析的主要目的是可以通过因子分析对各因子进行客观赋权,以便确定综合评价的重要因素——权重,权重反映不同评价指标对地区专利的影响程度大小,引入权重的综合评价可以更科学合理地评价地区专利发展状况。

2.2 聚类分析法

聚类(Clustering)就是将数据分组成为多个类(Cluster),在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大,聚类分析师一种无监督数据挖掘方法,它基于观测之间的相似度或距离将观测(数据)分组[10]。一个好的聚类方法会产生高质量的聚类结果,使同一类别内的观测相似度高,而不同类的观测差异大。

3 专利综合评价的实证分析

本文选取了广东省21个市作为样本,并对样本进行因子分析与聚类分析。样本数据根据广东省知识产权局网站2006-2010年的专利统计报表计算得出,其中主要数据来源于2010年,个别数据根据2006-2010年统计计算得出,计算与统计过程使用EXCEL与SPSS统计分析工具完成。

3.1 基于因子分析的实证研究

(1)采用SPSS因子分析统计得出公因子特征值与贡献率表以及公因子得分系数矩阵如表1、表2所示:

按特征值大于1的原则提取公因子,最终提取了6个公因子,第一个公因子的特征根为11.108,解释了总变异的46.285%,以此类推,6个公因子的累积贡献率达91.425%,信息损失为8.575%,能较为全面地反映信息。

(2)此时,用回归法计算出得分,并按系数大小加权进行排序,从而得出公因子得分系数矩阵,如表3所示:

由表2可知,第一公因子Z1的特征值最高,贡献率也最高,并且由表3可知,第一公因子Z1得分大都为正,且数值都很高,因此可以认为Z1代表地区专利发展水平,Z1越高表明地区综合专利发展水平实力越强。实用新型授权量X6,实用新型申请量X2,工矿企业授权量X18,工矿企业申请量X13,发明专利申请量X1,机关单位授权量X19在Z1上有高荷载;大专院校申请量X11,大专院校授权量X16,科研机构授权量X17,科研机构申请量X12在Z2上有高荷载;外观设计授权率X9,实用新型授权率X7,发明专利授权率X5在Z3上有高荷载;技术衰老系数γ在Z4上有高荷载;年专利申请增长率X20,年专利授权增长率X21在Z5上有高荷载。

因此,可以认为公共因子Z1包括以下几个方面的指标:一是反映专利质量情况的指标;二是反映专利数量情况的指标;三是专利来源的指标,这三者被聚合为一个因子的原因之一,是所选择的数量类指标、质量类指标与专利来源指标之间有密切的相关关系,三者之间相互影响,并代表着地区专利发展的关键因素。因子Z2包括专利来源的授权量和申请量指标,这说明专利来源的各种情况也反映着地区专利发展的情况。因子Z3包括专利质量类指标,原因是该类指标是靠比例计算得出,因此聚合在一个因子中,该因子的贡献率在10%以上,专利质量对地区专利的发展情况起着至关重要的作用。因子Z4包括技术发展程度指标,该类指标都是反映专利的发展趋势,其贡献率为9.6%。因子Z5包括专利发展情况指标。根据各因子包含的反映地区专利发展情况的各个维度的指标类型对各个因子进行命名,命名原则是贡献率因子,以载荷大的因子来命名。

(3)得出公因子得分系数矩阵后,以各公因子的方差贡献率fi占其总方差贡献率的比重作为权重进行加权汇总[11],得出专利综合得分F,专利综合评价函数为:F=(f1*Z1+…+fi*Zi)/∑fi。在该案例中的公式为:F=(0.46285*Z1+0.14518*Z2+…+0.04386*Z6)/0.91425,按此公式,根据表1与表2的数据,计算出每个城市在每个公因子下的得分并计算出综合得分,得出表5。

根据表5的得分,按综合评价得分F可将广东省专利综合实力分为6个阶梯:第一阶为深圳和广州,两者为广东省专利综合实力最突出的地区,由于深圳和广州是广东省重点发展的地区,并且人才更集中,其地理环境优越、交通便捷、人才资源丰富、经济基础雄厚,这是深圳与广州专利综合实力处于领先地位的重要因素。第二阶梯为佛山、东莞、中山,这些地区专利综合实力也很雄厚,源于地处深圳与广州附近,并且工业发达。第三阶梯的惠州、清远、珠海等,其专利综合实力较好。第四阶梯的韶关、肇庆等专利综合实力一般。第五阶梯为云浮、茂名等,专利综合实力较差。第六阶梯为阳江、潮州,专利综合实力很差。

进一步分析,广州市与深圳市遥遥领先于其他各市,其主要原因在于两者的综合因子得分都很高,并且广州市与深圳市之间也有区别,广州市的专利来源因子得分很高,说明广州市的专利来源分布均匀并且在数量与质量上都占据绝对优势,相对来说,深圳市的专利质量因子、专利发展情况因子以及技术发展程度因子都要优于广州市,这情况说明广州市聚集了各大高校以及研究所等,科研人才相较于深圳市来说有绝对的优势,而由于深圳市的政治经济因素,使其专利质量以及发展情况更优于广州市。东莞市、佛山市与中山市的专利综合因子得分相近,并且实用新型与外观设计因子得分都较高,三者之中只有中山市的专利来源因子以及专利发展情况因子较优,说明这3个城市主要注重于加工制造业,真正的发明创新较少,其中中山市的专利发展结构较为合理并长久发展的可能。清远市、惠州市、珠海市等专利综合因子得分较低,但专利来源因子、专利质量因子等得分都较高,说明其专利各项发展水平都良好,但是无法成为一个系统发挥促进专利综合发展的作用,为此,这些城市需协调各项专利因素之间的联系与影响。其他的分析也同上文相似,比如各个市之间排名的比较与该市专利开发的分布情况等,都可以依据上述描述,根据表4的数据分析出来,并可以据此看出各市的不足与优势,分析各市的发展重点以及需要进行的改进等。在此不再探讨。

3.2 基于聚类分析的实证研究

为看出各市专利发展水平的相似程度,本文在因子分析的基础上再运用聚类分析方法对各市进行分类。

根据因子分析中得到的6个因子对21个城市进行分层聚类,分别用4类、6类、8类进行聚类,发现分为8类较为合理,最后得到各市在8类中的属类,即表4最后一列。图2是反映聚类过程的树状图,该图各市右边的序号为该市的综合实力排名。

图1的树状图给出了每一步中被合并类的过程,因此可以进一步分析类之间的关系和同一类的差别,以下将进一步探讨。第一类为广州,是因为广州专利综合因子、专利来源因子得分最高,专利综合总得分也遥遥领先于其他城市;第二类是深圳,深圳专利综合因子、专利质量因子、技术发展情况以及专利发展情况得分很高,专利综合评价总分也很高;第三类为佛山和东莞,两个城市的专利发展水平相似,故聚为一类;第四类为中山、汕头、江门,这3个城市专利总综合得分虽然在排名上差距较大,但绝对值差较小,在利综合因子、专利来源因子、专利质量因子、技术发展情况因子的得分上结构相似,因此聚在了一类;以此类推,第五类为清远与韶关,专利综合因子得分相似,专利来源因子与专利发展情况因子得分较高;第六类为湛江、珠海等;第七类是阳江,专利综合评价很差,但技术发展情况因子得分很高;第八类是潮州,专利综合评价以及各方面因子都很差。

参考文献

[1]邵勇.专利指标及其经济效益研究[D].暨南大学,2003:1-2.

[2]黄庆,曹津燕,瞿卫军,等.专利评价指标体系——专利评价指标体系的设计和构建[J].知识产权,2004,(5):25-28.

[3]肖国华,王春,姜禾,等.专利分析评价指标体系的设计与构建[J].图书情报工作,2008,(3):96-99.

[4]张冬梅,曾忠禄.专利情报分析指标体系——分析方法与技术[J].情报杂志,2006,(3):55-57.

[5]阮梅花,肖沪卫.企业自主创新能力评价的专利指标体系构建初探[J].大学图书馆情报学刊,2011,(2):85-89.

[6]Huang Z,Chen H,Yi PA,et al.Longitudinal patent analysis for nanoscale science and engineering:Country,institution and technology field[J].Journal of Nanoparticle Research.2003,5(3):333-363.

[7]白思俊,等.系统工程[M].北京:电子工业出版社,2006:25-50.

[8]宇传华.SPSS与统计分析[M].北京:电子工业出版社,2007:459-513.

[9]龚光明,张柳亮.基于因子分析的湖南省上市公司绩效评价[J].会计之友,2012,(1):36-39.

[10]张俊妮.数据挖掘与应用[M].北京:北京大学出版社,2009:70-79.

[11]戴维 F.格罗布纳.商务统计(第六版)[M].北京:机械工业出版社,2008:355-367.

(本文责任编辑:王 涓)

猜你喜欢

聚类分析因子分析数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
农村居民家庭人均生活消费支出分析
基于主导产业视角的战略性新兴产业识别以及实证研究
基于省会城市经济发展程度的实证分析
山东省县域经济发展评价研究
实证分析会计信息对股价的影响
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究
一种基于Hadoop的大数据挖掘云服务及应用