基于R&D指标的先导性战略新兴产业发现研究
2013-08-01陈文俊贺正楚
陈文俊,贺正楚,吴 艳
(1.中南林业科技大学 经济学院,湖南 长沙 410004; 2.长沙理工大学 经济与管理学院,湖南 长沙 410114)*
一、引 言
甄选符合国情、适合我国产业与经济特征的战略新兴产业,需要采用科学的识别方法[1]。战略新兴产业一般要具备全局性、先导性、关联性和动态性等方面的产业特性与经济特性[2]。不过,由于战略新兴产业都是一些发展时间还不长、产业规模也不大的新兴产业,因此,其全局性、关联性和动态性这三个方面的特征,在短期内就不甚明显。至于战略新兴产业的先导性特征,是指该产业对国民经济发展起方向性的引导作用,代表着技术发展和产业结构演进的方向[3]。“先导性”强调的是战略新兴产业能引领我国产业发展战略方向,代表产业的科技创新力乃至我国产业的潜在竞争力。R&D是在科学技术领域,为增加知识总量以及运用知识去创造新的应用进行的系统性的创造活动,R&D投入与水平体现着一国的政治经济实力,企业的R&D则体现着企业的产品和产业竞争力。近些年随着我国对高新技术产业的规划(包括产业园区的建设、产业的引进),对R&D的重视以及经费投入的不断增加,R&D对我国战略新兴产业的先导性作用开始显现[4-5]。虽然目前战略新兴产业在规模和数量方面还不占优势,但其产业先导性特质正日益凸显。本文拟从R&D投入的视角探讨如何甄选和发现先导性战略新兴产业。即采用知识发现功能,通过对有待鉴定的产业的R&D指标数据的归纳、分析和推理,发掘出创新力强、先导性明显的战略性新兴产业。
数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识与规则。这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等提供依据。数据挖掘已经广泛应用于政府管理、商业经营、科学研究及工业决策等领域[6-10]。由于数据挖掘是知识发现过程的一个步骤,因此在使用过程中,知识发现和数据挖掘二者通常不加以区分的使用。本文基于知识发现的功能来研究战略新兴产业的识别,采用数据挖掘关联规则发掘战略新兴产业。依据各产业R&D指标数据库,采取数据挖掘技术识别出潜在的、创新力较强的先导性战略新兴产业。
本研究依据先导性战略新兴产业的特点确定评价指标之后,采用关联规则方法,结合R&D评价指标所要达到的标准,针对待评价的各个产业R&D评价指标标准不同,寻找某一产业R&D指标水平与各个产业R&D指标平均值的关联关系,确定该产业在该指标水平下具备战略新兴产业的特质。作者曾依据战略新兴产业的全局性、关联性、导向性和动态性特征构建了一套评价指标体系[2-4],本文仍沿用该指标体系,不过着重从产业先导性和创新性的角度进行评价和数据挖掘。
二、战略新兴产业数据挖掘关联规则模型的建立
(一)战略新兴产业知识发现过程
采用知识发现功能识别战略新兴产业时,其整个过程包括在建立的指标数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和知识表达等一系列步骤,数据挖掘为整个过程的中心。战略新兴产业知识发现过程的具体步骤包括:
(1)目标定义:熟悉战略新兴产业识别背景、内涵及特征,了解所要达到的目标及操作的要求;(2)数据选择:从不同的异构数据源中获取各产业R&D指标数据;(3)数据预处理:由于数据源、数据类型及度量的多样性,会存在一些不完整、错误的、冗余的数据,有必要对错误的数据进行修正或剔除,补充或预测缺失的数据;(4)数据挖掘:采用Apriori算法,从数据中提取出各产业指标数据与指标平均值之间的关联关系,识别具备战略新兴产业特征的产业;(5)知识评估:评价和解释发现的模式,根据需要对知识发现过程中某些阶段进行处理,必要时,反复执行步骤(1)~(5);(6)知识输出:采用可视化方法和知识表现技术将发现的模式展现出来。
(二)战略新兴产业数据挖掘关联规则模型
关联规则挖掘的目的是寻找出数据库中不同数据项集之间隐藏的关联关系,发现有待鉴别产业的R&D指标数据与指标平均数据之间的关联关系。有关战略新兴产业数据挖掘关联规则模型建立如下[11-12]:
定义1:关联规则挖掘的数据集记为D(事务数据库),D={t1,t2,…,tn},tk={ik1,ik2,…,ikp},tk为(k=1,2,…,n)一条事务(transactions),tkm(m=1,2,…,p)为事务中项目(item)。
定义2:设IR={i1,i2,…,im)是 D中全体项目组成的集合,IR的任何子集X称为D中的项目集(itemset),且若|X|=σ,则称集合X 为σ项目集(kiemset)。设tk和X 分别为D 中的事务和项目集,如果X⊆tk,称事务tk包含项目集X,且事务tk有唯一的标识符TID。
定义3:数据集D中包含项目集X的事务数称为项目集X 的支持数,记为support(X)。项目集X的 支 持 度 记 为Pr (X),则 有 Pr(X)=×100%。其中,|D|为数据集D的事务数。若Pr(X)不小于设定的最小支持度minsup(或s),则称X为频繁项目集,简称频集(或大项目集),否则称X为非频繁项目集,简称非频集(或小项目集)。
定理3:X、Y为数据集D中的项目集:(1)若X⊆Y,则Pr(X)≥Pr(Y);(2)若X⊆Y,如果X是非频集,则Y也是非频集;(3)若X⊆Y,如果Y是频集,则X也是频集。
定义4:关联规则是描述数据库中数据项之间存在的潜在关系的规则,形式为X⇒Y,其中X⊆IR,Y⊆IR,且attr(X)∩attr(Y)=Ø,X称为规则头(antecedent),Y称为规则尾(consequent)。本文中所要考察的数据项之间的关联表示:如果某产业指标值X(Y)在某一事务中达到一定水平时,那么指标平均值Y(X)出现的可能性则较高。则规则X⇒Y的支持度定义为Pr(X∪Y),表示X、Y同时出现的可能性,记作Pr(X⇒Y)=Pr(X∪Y)。关联规则置信度(confidence)记作conf(X⇒Y),有lift(X⇒Y)=×100%。置信度用于衡量关联)规则的可信程度,通常根据需要可设置最小置信度minconf(或c)。关联规则作用度(lift),记lift(X⇒Y),有lift(X⇒Y)=×100%。作用度)描述了X对Y的影响力的大小,作用度越大,说明Y受X的影响越大,则X与Y关联程度越强,根据需要可设置最低作用度minlift(或l),一般来说,有价值的关联规则的作用度都应该大于1。
定义5:若关联规则X⇒Y同时满足Pr(X⇒Y)≥minsup,conf(X⇒Y)≥minconf,lift(X⇒Y)≥minlift。则称关联规则X⇒Y为强规则,否则称关联规则X⇒Y为弱规则。本文研究目的就是为了寻找出D中所有强规则。
(三)R&D指标的选取
以R&D经费投入强度作为判断创新力强、先导性战略地位突出的新兴产业的重要指标,一直得到了世界范围内的认可。党夏宁、贺正楚等的研究也表明,无论是从定性还是定量的角度分析,R&D经费投入指标对于先导性明显、创新力强的新兴产业的支撑和识别,都具备科学的验证性[13-15]。
R&D经费投入指标作为识别和支撑战略新兴产业的重要指标,是从资源投入的角度来进行衡量的。在产业实际发展过程中,科研经费的投入对于产业的科研创新支持、员工创新力知识的增强有着不可预知的特征,为此,在识别创新力强的战略新兴产业时,有必要根据R&D经费投入之后所能获得的产出来进行关联分析。专利指标是对产业或企业创新能力进行衡量的重要指标,具有时间序列性和年度产出的特质,R&D经费投入之后,具有一定的时滞性,但专利的出现是创新力与资源投入积累之后的成果,所以,采用专利指标作为战略新兴产业的创新力产出指标是合宜的。由于受利益的驱动,不少专利申请都含有一定的虚假成分,为此,本文所搜集的专利源自于经国家知识产权局和专利局认定之后的专利授权数。故而,本文的研究目标是根据R&D经费投入强度指标与专利授权量指标之间的强关联规则关系,识别出拥有较强创新力的先导性战略新兴产业。
三、实证分析——以长三角地区为例
(一)基于关联规则的长三角地区战略新兴产业实证研究
本文采用weka软件对长三角地区战略新兴产业进行关联规则分析,运行环境为Windows XP。
(1)数据源。根据我国国民经济行业分类(GB/T4754-2002)标准,结合本文研究特点,选取2009年长三角地区共25个城市的战略新兴产业作为实证研究对象,每个城市的产业指标集合作为一条事务。本文针对统计年鉴中的战略新兴产业进行分类:新一代信息技术产业,包括通信设备、计算机及其他电子设备制造业;新材料产业,包括化学原料及化学制品制造业、化学纤维制造业、非金属矿物制品业;新能源产业,包括电力、热力的生产和供应业,石油加工、炼焦及核燃料加工业,燃气生产和供应业;新能源汽车产业,包括电气机械及器材制造业;高端装备制造业,包括专用设备制造业、通用设备制造业、交通运输设备制造业;生物医药产业,包括医药制造业;节能环保产业,包括水的生产和供应业、废弃资源和废旧材料回收加工业。
“R&D经费投入强度”评价是“战略新兴产业的先导性”指标体系中的一个重要指标[14],本文把该指标作为考察对象,研究长三角地区战略新兴产业的识别,同时,以2009年专利授权量指标作为与R&D发生关联规则分析的产出指标(平均指标)。长三角地区战略新兴产业R&D经费投入强度的原始事务数据库,见表1。
表1 长三角地区战略新兴产业R&D经费投入强度表
(2)数据预处理。在对数据进行录入之后,由于weka软件关联规则只能处理分类型(nominal)数据,因此,得将数据库中的数值型数据转为分类型数据。例如,将产出指标(平均指标)“专利授权增加量”分类为高(high)和低(low)两类,当人均生产总值<7000件时,则为low;人均生产总值≥7000元时,则为high。其他各指标数据均划分为3个区间,值域小的落在low区间,值域为一般的或者高的落在medium(中等)或high(高)的区间。实际操作中,数值型数据的分类处理非常关键,划分过粗,区间支持度太大,可能造成规则的置信度下降,以致达不到置信阈值;划分太细,落入每个区间的事务数减少,很难找到满足支持的阈值。由于各属性的数据最大值与最小值相差过大,经过多番调试,依据最大值将属性数据分为3个区间:low(低),medium(中等),high(高)。图1为启动weka软件打开分类处理后的产业数据表,可以看到,新材料产业(new material industry)的类型(type)为分类型(nominal),且分为low、medium、high三个类型,无缺失值,见图1。
图1 新材料产业分类型数据视图
(3)产业关联规则参数设置与约束条件。采用Apriori算法,计划挖掘出支持度在20%~100%之间,lift值超过1.1且lift排前15的关联规则。将参数“lower Bound Min Support”和“upper Bound Min Support”分别设置为0.2和1,“metric Type”设为lift,“min Metric”设为1.1,“num Rules”设置为15,其他选项保持默认即可。约束条件为置信度conf>0.5。
(4)挖 掘 结 果。在 窗 口 “Explorer”中 点 击“Start”运行算法,得出R&D指标下长三角地区战略新兴产业数据挖掘结果为(以下列出的为各属性指标与平均指标之间的强关联规则):Minimum support:0.4(10instances)。Minimum metric <lift>:1.1。Number of cycles performed:12。Generated sets of large itemsets:Size of set of large itemsets L(1):28;Size of set of large itemsets L(2):23。
Best rules found:average value=high 18⇒smelting and pressing of nonferrous metals=high 10,conf=0.56,lift=1.39;smelting and pressing of nonferrous metals=high 10⇒average value=high 10,conf=1,lift=1.39;average value=high 18⇒high-end equipment manufacturing industry,new energy vehicle=high 10,conf=0.56,lift=1.39;high-end equipment manufacturing industry,new energy vehicle=high 10⇒average value=high 10,conf=1,lift=1.39;average value=high 18⇒highend equipment manufacturing industry=high 12,conf=0.67,lift=1.28;high-end equipment manufacturing industry=high 13⇒ average value=high 12,conf=0.92,lift=1.28;average value=high 18⇒bio-pharmaceutical industry=high 11,conf=0.61,lift=1.27;bio-pharmaceutical industry=high 12⇒average value=high 11,conf=0.92,lift=1.27;average value=high 18⇒plastic products=medium 10,conf=0.56,lift=1.26;plastic products=medium 11⇒average value=high 10,conf=0.91,lift=1.26。
可见,在R&D经费投入强度指标下,挖掘出长三角地区战略新兴产业的产业顺序是:高端装备制造业、生物医药产业、新材料、新一代信息技术及新能源产业。
(二)结果分析与政策建议
以上根据数据挖掘结果,确立了以高端装备制造业、生物医药产业、新材料、新一代信息技术及新能源产业为主的战略新兴产业。基于R&D经费投入强度指标,采用知识发现工具,挖掘出与该指标产出目标下的专利授权量指标拥有强关联关系的规则,有利于创新力强的战略新兴产业的识别,这对于长三角地区确立产业的战略发展方向有着重要意义。电子信息产业和装备制造业作为长三角地区的重点发展产业,已经形成了比较完善的产业基地和研发中心,这对于新一代信息技术和高端装备制造的发展有着重要的支撑作用。本文的知识发现过程中也存在一些不足之处,譬如数据的整理:由于目前我国未有针对战略新兴产业的专门产业分类标准,数据搜集比较难,统计年鉴中的数据则比较完整,本文采用将统计年鉴中的产业重新划分进行了关联规则分析,但划分的产业中也存在分类不精确、产业交叉、产业范围扩大化、产业缺失等现象,在此,作者建议国家应尽快出台相关政策对战略新兴产业的统计给予明确定位,这样,对于战略新兴产业的发展可以实施动态的、科学的管理。
为此,政策建议如下:(1)在长三角地区实施战略新兴产业R&D效率评价。为了使R&D活动实现由模糊到具体、由静态到动态的管理过程,进一步提升长三角地区战略新兴产业R&D经费的配置效率和利用效率,为此要建立一套科学有效的R&D效率评价指标体系,及时反映R&D经费投入的产出情况和使用效率,以便为政府相关部门及时作出相应的投入决策提供参考依据。在增加R&D经费投入时,也要大力提高R&D经费利用率,科学控制R&D经费和R&D人员投入规模,对有限经费进行合理配置,找出影响R&D效率提高的主要因素,并逐步改善。此外,长三角地区的苏、浙、沪三地各自拥有优势战略新兴产业,因此,可以相互交流借鉴经验,共同提升长三角地区战略新兴产业的R&D效率。
(2)长三角地区战略新兴产业要尽快达到适度的产业规模。R&D经费投入的增加,要求产出增加的比例超过投入增加的比例。通过合理扩大战略新兴产业规模,在注重产出效率的同时,确保R&D活动持续高效地进行。作为长三角龙头,上海市到2015年要成为在若干领域跻身世界前列的战略新兴产业集聚区,战略新兴产业中高端制造业占工业总产值比重争取达到30%。2015年,江苏省战略新兴产业增加值要占GDP比重的10%,2020年,比重要达到18%。“十二五”期间,浙江省力争战略新兴产业增加值年均增长15%以上,到2015年达到5000亿元左右,占生产总值的比重达到12%左右,到2020年,战略新兴产业增加值占浙江省生产总值的比重接近20%。长三角地区要把其省级产业集聚区、省级以上高新技术产业开发区(园区)作为培育发展战略新兴产业的主阵地进行规划建设,要求其战略新兴产业增加值占生产总值的比重每年提高3个百分点以上。省级以上经济开发区(园区)、产业集群示范区则要求每年提高2个百分点以上。
(3)2006~2009年,长三角地区R&D经费内部支出总额为729.60亿元,发明专利16330件,专利申请数33929项。2006-2009年,长三角地区在产业的R&D投入强度方面(R&D费用/工业总产值),分别是0.9%、0.88%、0.91%、1.19%,虽然总体上呈现出逐年上升的态势,但是却明显低于全国平均水平(2006~2009年,全国平均水平分别是1.09%、1.08%、1.15%、1.28%)。美国在2006年的产业R&D投入强度为16.41%[15]。为了缩小与全国平均水平以及发达国家的差距,长三角地区应加大R&D经费投入强度。
[1]彭金荣,李春红.国外战略性新兴产业的发展态势及启示[J].改革与战略,2011,27(2).
[2]贺正楚,吴艳.战略性新兴产业的评价与选择[J].科学学研究,2011,29(5):678-683.
[3]贺正楚,张蜜.生物医药产业共性技术路线图研究[J].中国软科学,2012,(7):49-60.
[4]张良桥,吴艳.基于灰色关联分析的战略性新兴产业评价——以生物医药为例[J].经济数学,2010,27(3):71-77.
[5]张训.战略性新兴产业的选择与评价及实证分析[J].科学学与科学技术管理,2010(12):62-67.
[6]Margaret H.Dunham.数据挖掘教程[M].北京:清华大学出版社,2005:8-11.
[7]Ming-Syan Chen,Jiawei Han,Philip S.Yu.Data Mining:An Overview from a Database Perspective[J].IEEE Transactions on Knowledge and Data Engineering,1996,8(6):866-883.
[8]陈安,陈宁,周龙骧等.数据挖掘技术及应用[M].科学出版社,2006:40-47.
[9]Rakesh Agrawal,Tomasz Imielinski,Arun Swami.Mining Association Rules Between Sets of Items in Large Databases[J].ACM SIGMOD,1993.207-216.
[10]陈士俊,赖迪辉.数据挖掘在科技评估中的应用[J].科学学与科学技术管理,2005,(4):40-43.
[11]马超群,兰秋军,陈为民.金融数据挖掘[M].北京:科学出版社,2007:57-69.
[12]吴艳,周震虹.战略性新兴产业评估指标实证遴选及其应用[J].中国科技论坛,2011(5):10-14.
[13]党夏宁.中国高新技术产业的国际竞争力[J].西安财经学院学报,2009,22(6):80-83.
[14]贺正楚,吴艳,周震虹.基于知识发现的战略性新兴产业识别研究:兼论“长三角”战略性新兴产业的发展[J].南京财经大学学报,2012,30(4):22-28.
[15]董洁,张体委.长三角地区高技术产业R&D资源配置效率优化研究[J].科技进步与对策,2012,29(21):49-54.