基于文本挖掘的国家创新型城市科技创新政策量化评价研究①
2021-02-11郄海拓陈雪迎张志娟
郄海拓 陈雪迎 张志娟
(中国科学技术信息研究所 北京100038)
0 引言
科技创新政策量化评价是政策评价的重难点问题,将文本数据转化成精准、客观、易读性和可读性强的客观数据和关系并识别政策的重点,同时挖掘核心关系并透视政策文本背后隐藏的关键信息具有研究价值。我国试点创新型城市形成的创新型城市发展创新网络为我国区域创新驱动发展提供了有力支撑[1],城市的科技创新政策对城市的建设和发展起到了引领作用。对国家创新型城市的科技创新政策进行研究有助于优化政策,使政策更好地为城市发展提供引导和支持。
1 研究背景和意义
科技部和国家发改委共支持了78 个国家创新型城市,其中72 个为地级市,其他为4 个直辖市和2 个县级市。国家创新型城市占据全国约八成的R&D 经费支出,并拥有85% 以上的有效发明专利[2],为创新型国家建设做出了很大贡献。国家创新型城市建设需要城市科技创新政策的引导和支持,因而实现政策优化、支持政策合理地进行立改废决策,成为国家创新型城市建设的重要一环。本研究基于文本挖掘,对国家创新型城市的科技创新政策予以挖掘和透视,分析隐藏在政策文本背后的关键信息,以支持政策的立改废决策。
为保证样本的一致性,本研究选取78 个国家创新型城市中的72 个地级市作为研究对象并以2019年科技创新政策作为研究范围,对国家创新型城市的科技创新政策进行文本挖掘,拟基于政策原文件挖掘和透视文本中隐含的关系与网络分布,使原本隐藏在大量文本背后的关系和数据得以清晰展现。除了对全样本进行文本挖掘,本研究还基于城市的经济发展能力和创新能力将72 个样本划分到4 个象限中,研究不同象限样本的科技创新政策特点。文本挖掘方法的运用,有助于将非结构化的文本转化为结构化的数据,对政策量化和政策评价以及基于此进行的政策立改废有重要的借鉴意义。
本研究的主要内容有两个:一是通过基于对原政策文件的文本挖掘更加深入地了解、评价和量化科技创新政策,加深政策研究的深度和客观程度;二是通过对政策的客观评价与量化,分析不同样本组科技创新政策的不同特点并进行比较研究,最终对城市科技创新政策的立改废决策提供依据。
从理论意义角度来说,基于文本挖掘的国家创新型城市的科技创新政策量化评价综合采用ROST CM、Ucinet、Python 和Gephi 软件实现了政策的深度挖掘,立足政策原文本的研究,增强了研究结论的客观性。另外,该量化评价还拓展了文本挖掘在政策研究领域的应用范围。从现实意义角度来说,研究得到的高频词、网络性、中心性和小团体分析有助于识别政策要点,加深对政策的理解,为政策制定者的立改废决策与政策受众更加深入地理解政策都有一定的现实意义。
2 科技创新政策量化评价文献综述
由于政策文本的数据形式比较特殊,最初常采用专家访谈[3]实现政策量化,虽然这种方法简单高效但难以避免主观性对结果的影响。文献[4]提出了用于政策量化的三维度操作手册,从政策力度、目标与措施维度实现政策量化评价。文献[5]基于内容分析从政策目标与政策工具角度法实现了区块链政策文本的量化。文献[6]提出PMC 指数(policy modeling consistency index)法用于政策量化评价并被国内学者应用到我国科技创新政策的研究中[7-8]。文献[9]在此基础上提出衡量待评价政策与理想的完美政策间差异水平的“PMC 凹陷指数”来测度待评价政策的改进空间。文献[10]从政策工具角度构建基于政策工具与科技产业价值链的量化分析框架,实现了政策量化。在政策评价维度方面,文献[11]从政策目标、政策工具与政策力度3个维度评价我国高校创新创业政策。文献[12]基于政策工具视角,从X、Y、Z3 个维度评价双创政策,其中X维度包含供给型、环境型以及需求型政策,Y维度包含技术布局、产业布局以及应用布局,Z维度则包括了创新研发、创新成果转化与产业化以及创新推广与服务。
从总体趋势来看,科技创新政策量化是从主观逐渐走向客观的过程。科技创新政策量化评价的总体思路基本上都是首先基于一个评价框架,然后采用一定方法将政策文本与评价框架的关键要素予以对应,最后实现量化。评价框架的选择往往基于已有研究的经典框架,结合具体研究对象的具体情况进行设定,以更加契合研究对象的特征进而做出客观合理的评价。科技创新政策量化评价的下一步研究常常是研究政策与创新绩效之间的关系,如文献[5,13-14]的研究,因而客观合理地对政策进行量化评价是研究政策与创新之间关系的重要基础。
3 研究主体
对研究主体做简要描述,如图1 所示。
图1 研究主体图
研究主体分为72 个国家创新型城市分类、政策文本搜集和政策文本挖掘3 个部分。第1 个部分又分为城市样本选择与城市分类;第2 部分分为政策样本来源和政策文本概况;第3 部分对政策样本产生的高频词、语义网络图、点度中心度、网络中心势和小团体分析进行了各样本组的详细说明与比较。
3.1 72 个国家创新型城市分类
3.1.1 城市样本选择
本研究选取了78 个国家创新型城市中的72 个地级市,将北京市海淀区、上海市杨浦区等去掉,留下《国家创新型城市创新能力评价报告》和《国家创新型城市创新能力监测报告》中进行完整评价的72个城市,即深圳、广州、杭州、南京、武汉、苏州、西安、长沙、成都、青岛、厦门、无锡、合肥、济南、宁波、常州、大连、郑州、沈阳、南昌、镇江、东莞、嘉兴、贵阳、昆明、芜湖、太原、福州、南通、湖州、佛山、哈尔滨、烟台、扬州、长春、泰州、洛阳、马鞍山、绍兴、兰州、株洲、潍坊、石家庄、徐州、南宁、金华、连云港、乌鲁木齐、海口、盐城、银川、秦皇岛、宜昌、东营、襄阳、呼和浩特、景德镇、济宁、泉州、唐山、西宁、龙岩、包头、宝鸡、拉萨、衡阳、萍乡、遵义、玉溪、南阳、吉林和汉中。
3.1.2 城市分类
按照人均GDP 与《国家创新型城市创新能力评价报告》(2019 版)中国家创新型城市创新能力指数为划分象限的2 个维度,分别以50 百分位点为界,将72 个城市划分到4 个象限,方便后续进行比较研究,象限划分见图2。
图2 创新型城市四象限分类图
对4 个象限的特点进行汇总,可以设定为:第一象限(高经济发展能力,高创新能力);第二象限(低经济发展能力,高创新能力);第三象限(低经济发展能力,低创新能力);第四象限(高经济发展能力,低创新能力)。由象限划分结果可以看出,处于第一象限和第三象限的城市均有30 个,样本数量较大,说明处于(高经济发展能力,高创新能力)和(低经济发展能力,低创新能力)两种状态的城市数量较多。
从样本城市来看,第一象限的城市是创新状态较优的,特别是处于右上的深圳,是资源和创新能力双优的城市。从象限来看,应实现从第二、三、四象限城市向第一象限的转移,如第二象限(低经济发展能力,高创新能力)的优化路径就是基于较强的创新能力提升经济发展能力实现象限转移,而第三象限(低经济发展能力,低创新能力)则有2 条优化路径,分别是提升经济发展能力—提升创新能力和提升创新能力—提升经济发展能力。第四象限若实现象限转移则需要通过依靠自身高经济发展能力的优势提升创新能力。而在第一象限中城市优化的思路与象限转移的思路一致,即基于自身的经济发展能力条件和城市创新能力现状向整个图像的右上角进行转移。
3.2 政策文件搜集
3.2.1 政策样本来源
本研究选取72 个国家创新型城市2019 年的科技创新政策,来源主要包括城市人民政策官网、科技局、人力资源和社会保障局、知识产权局、工业和信息化局、财政局、发改委、金融监管局、经信委、北大法宝等网站。
3.2.2 政策文本概况
以上网站的科技创新政策经整理筛选形成政策文本全样本库,然后根据象限分类结果形成4 个象限的分样本库。
政策数量排名前3 的城市是南京、广州和长沙,从象限分布来看这3 个城市均处于第一象限,科技创新政策数量体现城市对创新的重视程度,因而政策数量对于城市创新能力与城市经济发展均存在正向影响,可以作为研究下一步推进的方向。
对政策样本进行挖掘,进一步得到非结构化的文本数据背后隐藏的结构化数据与关系。
3.3 政策文本挖掘
3.3.1 高频词
首先对高频词进行挖掘和列示,为了兼顾高频词反映的信息全面程度和重点突出程度,研究选取30 个高频词进行汇总,剔除没有实际意义的词,例如“非常”等词。其次,在高频词筛选中,由于共现关系较弱,排除了第二象限的科研诚信(词频169)和第三象限的孵化器(词频438)、基金(词频426)和团队(词频343),高频词汇总结果如表1 所示。
表1 5 个样本组高频词情况汇总表
续表1
从表1 中可以看出,全样本和第四象限的高频词中“项目”、“企业”、“服务”、“技术”、“科技”和“创新”普遍是高频词中排名靠前的词,说明在各城市组成的样本组的科技创新政策中往往会突出上述相关内容,而从之后的高频词中可以看出科技创新政策的其他重点领域,如人才、补助、知识产权和研发等同样在城市的科技创新系统中非常重要。
3.3.2 语义网络图
基于政策文本进行进一步挖掘,语义网络图反映的是政策样本中高频词的关系与具体分布情况,其中词间连线代表的是两端的高频词同时出现在政策样本中。语义网络图能够将政策样本整体的分布情况以直观的方式体现出来,有助于将非结构化的文本转变成直观图像,挖掘文本背后的隐含关系与整个网络的分布态势。本研究中全样本和4 个分样本的语义网络图如图3~图7 所示。
图3 全样本语义网络图
从全样本来看,项目、企业、科技、服务、创新、研发、技术和资金是处于网络核心位置的高频词,且这些高频词之间的联系非常紧密,体现了科技创新政策总体的重点内容。从连线的情况来看,企业与项目、项目与资金、企业与服务、企业与技术、项目与创新、项目与研发等之间的关系非常紧密。这说明从总体来看,科技创新政策的重点主要集中在以企业和项目为依托的范围内的科技创新与技术研发,同时需要资金的支持,其语义网络图见图3。
第一象限的语义网络图中处于中心的是企业、项目、资金、服务、创新、技术和科技,联系相对紧密的关键词是项目与资金、企业与项目、企业与服务、项目与技术、资金与企业、企业与研发以及企业与科技等。反映了第一象限(高经济发展能力,高创新能力)城市发展的重点在于依托企业和项目开展的研发活动,并且关注资金对于企业和项目的支持作用,其语义网络图见图4。
图4 第一象限语义网络图
第二象限的语义网络图见图5,以企业、项目、资金、创新、科技、技术为中心,其中联系较紧密的高频词包括项目与企业、服务与企业、技术与创新、企业与技术、企业与科技、项目与科技、项目与资金等。说明第二象限(低经济发展能力、高创新能力)城市发展重点在于基于项目和企业的科技创新和资金利用,对围绕企业和项目提供服务是非常重要的。
图5 第二象限语义网络图
第三象限以企业、项目、服务、技术、研发、创新、科技为中心,其中联系较紧密的高频词包括企业与技术、企业与研发、企业与服务、技术与研发、技术与创新、企业与创新和企业与项目等。这说明第三象限(低经济发展能力、低创新能力)的城市发展重点在于基于项目和企业的技术创新与研发,其语义网络图见图6。
图6 第三象限语义网络图
第四象限以项目、企业、资金、科技、技术、服务和奖励为中心,其中联系较紧密的高频词包括企业与奖励、项目与奖励、科技与项目、资助与奖励、企业与项目、企业与服务等。这说明第四象限(高经济发展能力、低创新能力)的城市发展重点在于基于项目和企业的科技与技术创新,且非常注重与之相关的资助与奖励,其语义网络图见图7。
图7 第四象限语义网络图
5 个样本组语义网络图的中心和高频词之间联系略有不同,但企业和项目以及与之相关的科技、创新、技术、服务、研发和资金总体来说是网络图共同的重点内容。
3.3.3 点度中心度
点度中心度反映的是特定高频词在网络中的重要程度,即与其他高频词的联系紧密程度,点度中心度的取值越高则代表该高频词(节点)在网络中的重要程度越高[15],在图中的节点越大、颜色越深。点度中心度的态势可以用图形表示,也可以用数据列示。全样本点度中心度图见图8。从全样本点度中心度图中可以看出,企业、项目、服务、技术和资金是网络中重要性排名前5 位的高频词。
图8 全样本点度中心度图
从第一象限点度中心度图(图9)中可以看出,企业、项目、服务、技术和资金是网络中重要性排名前5 位的高频词,与全样本情形非常相似,只是在具体数值上略有差别。
图9 第一象限点度中心度图
从第二象限点度中心度图(图10)中可以看出,项目、企业、科技、资金和创新是网络中重要性排名前5 位的高频词,与第一象限情况略有差别,项目是最重要的高频词,科技的重要程度更为突出。
图10 第二象限点度中心度图
从第三象限点度中心度图(图11)中可以看出,企业、项目、服务、技术和创新是网络中重要性排名前5 位的高频词,相比较而言服务在该象限的重要性尤为突出。
图11 第三象限点度中心度图
从第四象限点度中心度图(图12)中可以看出,项目、企业、资金、奖励和科技是网络中重要性排名前5 位的高频词,相比较而言资金与奖励的重要性较为突出。
图12 第四象限点度中心度图
从4 个象限的点度中心度结果展示的情况可见,企业与项目以及围绕其的相关服务、资金、科技、创新、技术和研发是科技创新政策中重点关注的问题。
3.3.4 网络中心势
对5 个网络的网络中心势进行测算,来了解各网络的集中程度,网络中心势取值处于0%~100%之间,网络中心势超过10%的网络即体现为一定的集中度,网络中心势体现的只是网络集中的程度,并不是优劣的绝对评价标准。5 个样本组的网络中心势汇总如表2 所示。
表2 网络中心势汇总表
从网络中心势的取值来看,5 个样本组的取值均高于28%,网络均存在一定的集中度。原因可能为城市按照国家-省-城市的主要路线作为制定城市创新科技政策的主要路径,因而城市间政策制定的思路和基础较为统一、语义表达准确、用词规范。另外,本研究在政策文本筛选阶段标准严格,选择的政策均为表达准确、重点突出的政策文件,对于一般性通知和没有重点内容的文件均在筛选阶段删除,因此样本质量较优。
从网络中心势的具体情况来看,第三象限的网络中心势取值最高,说明该象限内政策样本的集中程度较高,重点更为突出。而第二象限和第一象限的网络集中度略低,第二象限由于样本数较少,所以网络中心势取值较低;第一象限由于样本的城市创新能力和经济发展能力都较高,所以政策倾向多元化,重点相对分散。
3.3.5 小团体分析
小团体分析的结果有助于了解和透视隐藏在大量的文本信息后的关系,并以直观的方式体现出来。各样本组小团体分析的结果如表3 所示,全样本的5 个小团体分别是创新人才、企业创新、平台载体、创新生态和知识产权。
表3 全样本组小团体分析的结果表
从表4 中可以看出,第一象限的5 个小团体分别是企业创新、创新人才、科技金融、创新生态和知识产权。
表4 第一象限小团体分析结果表
从表5 中可以看出,第二象限的5 个小团体分别是企业创新、创新生态、创新人才、科技金融和政府基金。
表5 第二象限小团体分析结果表
从表6 中可以看出,第三象限的5 个小团体分别是企业创新、创新人才、平台载体、创新机制和创新生态。
表6 第三象限小团体分析结果表
从表7 中可以看出,第四象限的5 个小团体分别是知识产权、创新生态、创新人才、技术研发和科技金融。
表7 第四象限小团体分析结果表
通过小团体分析的结果可知,4 个象限小团体均存在创新人才和创新生态小团体,说明创新人才和良好的创新生态是科技创新的重要因素。第三象限的样本对于科技金融对城市创新能力与经济发展能力的支持相对于其他样本来说稍弱,应予以重点关注。同理,第四象限对企业创新的关注程度稍弱,或者是对企业关注点略显分散,应予以重点关注;第二、三象限应关注知识产权领域。而从小团体间差异来看,第二象限的政府基金、第三象限的创新机制与平台载体和第四象限的技术研发都是这些象限各自关注的特殊领域,其他象限的城市也应以此为依据审视本城市的政策制定是否全面并突出重点,为城市科技创新政策的立改废提供依据。
4 结论
基于5 个样本组文本挖掘的结果可知,我国国家创新型城市的科技创新政策重点比较突出,主要依托项目和企业开展研发活动,实现科技和技术的创新发展,同时需要重视相关的支持服务和资金的支持与其他奖励来激励创新绩效的提升。在创新活动的落实方面来看,各组均认识到了创新生态和创新人才的重要性,并对创新活动相关的企业创新、科技金融、平台载体、知识产权等普遍有所关注,且在不同样本组体现出了一定差异。
对各样本组的科技创新政策进行文本挖掘有助于将文本背后隐藏的关键信息挖掘出来,并且摒弃研究人员的主观偏差,将非结构化数据转化为结构性的数据和关系,以透视政策的重点内容,也为城市科技创新政策的立改废提供了依据,为城市创新体系建设提供了支持,为城市间相互借鉴提供了更清晰的思路和更突出的重点。
本研究下一步拟通过实证方法定量研究科技创新政策与创新型城市的经济发展和创新能力之间的关系,借此研究政策的效果、绩效与效率,并进一步为国家创新型城市的科技创新政策提供立改废决策支持。