浙江省城市科技竞争力研究*——基于神经网络和决策树的对比分析
2013-12-06辛金国关建清
辛金国、关建清
(杭州电子科技大学/1教授,浙江 杭州 310018)
一、引 言
城市科技竞争力是一个城市科技总量、科技实力、科技水平、内在科技体制以及科技发展潜力的一种综合变现。依靠科学技术,在原有资源积累的基础上,把各种资源进行加工、提取、转化成人们所能高效利用的优势资源的能力;与其他城市相比,吸纳科技资源促进城市的经济发展,提升服务质量,提高居民收入,提高人们生活水平的能力。衡量一个城市的科技竞争力,一般主要看一个城市的现实科技综合实力和科技发展潜力。
因此,城市科技竞争力是在一定城市经济文化背景和政策体制制度之下,由城市的经济、文化、政治等诸多因素组成的一个动态的有机综合体。提高城市科技竞争力的最终目的是促进地方经济和社会的发展,实现城市经济和社会的可持续发展。
二、相关文献回顾
自20世纪90年代中期以来,国外的许多学者开始日益重视有关城市这一经济体的竞争力研究。并在《城市研究》(Urban studies)期刊上曾刊载了多篇讨论城市竞争力的文章,尽管有些文章对于将竞争力理论体系放到城市范围上进行研究存在着一些争议,但总的来说,对于城市竞争力的研究已基本得到了认可。国内方面,由倪鹏飞主编的 《中国城市竞争力报告》的出版,将国内有关城市竞争力的研究推到了新一轮高潮。
倪芝青,林晔,沈悦林(2008)在对国内15个副省级城市及苏州、无锡、温州共18个城市的科技竞争力评价研究中,以2001-2006年的数据为依据,构建了三层指标体系,共30个指标;用主观赋权重方法分别从科技竞争力动态评价、科技竞争力与经济竞争力的关联度研究、政策对科技竞争力的影响三方面对国内18个城市的科技竞争力进行排名分析。
毕亮亮,施祖麟(2008)运用因子分析和聚类分析相结合的方法,对长三角地区16个城市进行城市科技竞争力评价。对16个城市选取了13个公共因子,运用因子分析方法,选取了三个主因子,并对16个长三角城市科技竞争力做出了排名。研究结果表明,省会城市(南京,杭州)科技创新实力和潜力皆名列前茅,并以省会城市为中心形成了“科技创新能力圈”。
陈达,袁志明(2012)根据系统性、准确性、可行性、可比性、动态性原则构建了反映浙江省11个地级市的城市科技竞争力评价指标体系,运用因子分析法,得出了浙江省11个地级市科技竞争力排名并提出了相应的政策建议。
综上,现有的研究方法普遍以主观赋权重、主成分分析、因子分析等方法对城市科技竞争力进行评价研究。主观赋权重处理的结果中主观因素影响较大,不易令人信服,并且当数据样本较大时,计算量大,指标权重难以确定。引入主成分分析、回归分析等统计学方法来克服主观因素的影响,在一定程度上能处理大样本数据,而进一步在处理海量数据时,上述研究方法表现出极大的局限性,如对动态数据的适应性不够、运算效率低等。另一方面,无法消除指标变量相关性对模型预测结果的影响。
数据挖掘技术恰恰弥补了上述统计方法的这些缺陷,数据挖掘模型尤其是BP神经网络模型一方面可以消除指标变量相关性对模型预测结果的干扰;另一方面BP神经网络模型由于其自学习、自适应、自组织和容错性好的特征,特别适合动态控制和实时控制,使相似的问题得到处理,避免了评价过程中人为改变标准值和确定权重的主观因素,使建立的模型更加客观。因此神经网络、决策树等数据挖掘技术是城市科技竞争力评价研究的方向和趋势,并且已经有相关学者进行了尝试。
本文在参考前人研究的基础上,利用BP神经网络模型和CHAID决策树模型对浙江省11个地级市的城市科技竞争力进行对比研究,以期得到一个较好的城市科技竞争力评价模型,对城市科技竞争力进行预测,为政府相关决策提供改进建议。
三、城市科技竞争力的实证分析
(一)指标的选取
本文以浙江省11个地级市为研究对象,运用2009年、2010年数据对浙江省城市科技竞争力进行预测分析。数据来源于《2011浙江省科技统计年鉴》、《中国城市统计年鉴2011》、《中国城市统计年鉴2010》、2009年和2010年浙江省市科技进步统计检测报告,以及浙江省11个地级市2009年和2010年的统计公报。参考前人研究经验,根据全面性、易获得性、实用性、客观性的原则,选取科技投入、科技产出、科技潜力、科技与社会协调发展四个一级指标,38个二级指标来反映浙江省每个地级市的科技竞争力。
(二)BP神经网络实证模型预测分析
利用数据挖掘软件Clementine建立关于城市科技综合竞争力得分的BP神经网络模型,BP神经网络的网络结构确定方法主要有快速训练法、多层训练法、动态削减法、动态增补法。分别用上述方法进行数据模拟,发现使用多层训练法模型预测精度最高。模型采用分区数据,指定样本的70%为训练样本集,剩下的30%为测试样本集,具体分配由Clementine软件自主完成。运算结果表明,无论对于训练样本集还是测试样本集,BP神经网络模型预测的绝对平均误差控制在了3%以内;城市科技综合竞争力实际值和预测值之间的线性相关关系则分别达到了0.999和0.986。模型通过了测试样本集的检验。预测效果非常好,可信度高。
(三)CHAID决策树模型预测分析
利用Clementine软件建立CHAID决策树模型,CHAID决策树模型可以生成决策树和规则集两种模型,这两种模型有极为紧密的联系,决策树可以直观的反映推理规则,规则集根据决策树推出来。运用软件Clementine建立模型,由于输出变量为数值型变量,限于篇幅原因,这里不给出规则集。通过运算可知,对于训练样本集和测试样本集,CHAID决策树模型预测的绝对平均误差控制在了4%以内;实际值和预测值之间的相关关系分别为0.995和0.994。模型通过测试样本集的检验,模型预测效果很好。
(四)BP神经网络和CHAID决策树模型的预测结果对比分析
比较发现,无论对于训练样本集还是测试样本集,BP神经网络模型的绝对平均误差小于CHAID决策树模型;而对于城市科技竞争力实际值和预测值之间的相关关系, BP神经网络模型大于CHAID决策树模型。因此,在技术分析上,对于浙江省城市科技综合竞争力的预测,BP神经网络模型要优于CHAID决策树模型。
图1 2010年浙江省城市科技综合竞争力排名对比
图1中,纵轴表示城市科技综合竞争力排名,可以看出,BP神经网络模型预测排名的曲线走势与实际排名的曲线走势基本相同,而CHAID决策树预测排名曲线相比实际排名的曲线走势波动较大,并且嘉兴和绍兴同时出现在第三名的位置,说明模型不能很好的区分两者之间的城市科技综合竞争力优劣。综上,从图1可得出,在城市科技综合竞争力预测上,针对2010年数据,BP神经网络模型的预测效果要优于CHAID决策树模型。
图2 2009年浙江省城市科技综合竞争力排名对比
图2中,其中纵轴表示城市科技综合竞争力排名,可以看出,实际排名曲线与BP预测排名曲线几乎完全重合,而CHAID预测排名曲线与实际排名曲线差异较大,且嘉兴和绍兴同时处于第三名,金华和湖州同时处于第七名的位置,说明CHAID模型不能很好的区分四个城市的科技综合竞争力。综上,针对2009年数据,BP神经网络模型对城市科技综合竞争力的预测要显著优于CHAID决策树模型。
综上所述,无论是在技术分析上,还是在实际预测排名上,对浙江省城市科技综合竞争力的预测效果,BP神经网络模型要优于CHAID决策树模型。
(五)变量重要性分析
变量重要性分析是指输入变量对输出变量的解释程度,变量重要性越大,说明输入指标变量对输出变量的影响程度越大,分析变量重要性,可以为政府决策者提高城市科技综合竞争力提供合理建议。
图3 BP神经网络变量重要性
由于指标变量众多,根据其表格形式得出变量重要性排名前十位,按重要性排名依次为:每万人口发明专利授权指数、每万人口科技活动人员数(人)、企业技术开发费用占主营业务收入比例、专利授权指数、发明专利授权量、财政科普活动财政拨款(千元)、高新技术产业增加值(亿元)、高等学校专任教师数(人)、科技经费投入占GDP比例、城镇生活污水处理率。因此,浙江省要提高城市科技竞争力,应鼓励创造发明,申请专利;加大对科技建设的人力、财力投入,鼓励企业搞技术开发,大力扶持高新技术产业;引进高等教育人才,加大科普活动投入,全面提高城市人民的科学素质。另外,城镇生活污水处理率反映了城市的生态科技水平,加强生态科技的投入和研发也有利于整体提高城市科技综合竞争力。
图4 CHAID决策树模型的变量重要性
从图4可知,浙江省提高城市科技综合竞争力,最重要的是要加大R&D经费投入,增加科技投入和教育经费支出一定程度上可以促进城市科技综合竞争力,但是作用不如加大R&D经费那么明显,因此,在城市财政经费有限的情况下,要最大限度的提高城市科技竞争力,就要合理的分配经费支出。剧场影院数(个)能反映城市的文化建设,说明加强文化建设可以在一定程度上提高城市的科技竞争力。
四、结论及建议
研究结果表明,数据挖掘模型对浙江省城市科技综合竞争力的预测评价研究效果非常好。无论对于训练样本集还是测试样本集,从技术分析和实际排名预测分析上,BP神经网络模型对城市科技综合竞争力的评价预测研究都要优于CHAID决策树模型。
变量重要性分析结果表明,浙江省要提高城市科技综合竞争力,首先要增加科研建设的人力、财力投入,鼓励企业搞自主技术开发,大力扶持高新技术产业;其次鼓励创造发明,申请专利,尤其是发明专利的实现对城市科技综合竞争力的提高有巨大的推进作用;再次,重视高等教育人才的引进,加强人民群众的科普活动教育,提高全民素质,积极发展城市的文化建设;最后,关注城市的生态水平,加强生态科技的研发和运用,营造良好的城市生活环境,提高城市的科技综合竞争力。
[1]陈达,袁志明.基于因子分析的浙江城市科技竞争力评价分析[J].嘉兴学院学报,2012(01):2-4.
[2]毕亮亮,施祖麟.长三角城市科技创新能力评价及“区域科技创新圈”的构建—基于因子分析与聚类分析模型的初探[J].经济地理,2008,(06):946-954.
[3]侯养全,张玉平,梁国琴,杨敏.中部六省会城市科技综合竞争力研究—2010年度[J].科技创新与生产力,2011(10):44-46.
[4]鞠芳辉,杜晓燕.中国沿海城市科技竞争力评价得实证研究[J].管理科学,2003(3):83-88.
[5]辛金国,关建清.城市科技竞争力视角下浙江省就业对策研究[J].杭州电子科技大学学报,2012(06):176-179.