中国科技服务业政策的量化与演变
——基于扎根理论和文本挖掘分析
2018-06-14王亚丹
张 骁,周 霞,王亚丹
(华南理工大学工商管理学院,广东 广州 510641)
随着21世纪的经济全球化,科技服务业显著提高区域创新能力,有力支撑企业的发展与创新,已成为具有高附加值的重要产业[1]。科技服务业对制造业升级具有正向推动作用,能与其他产业企业能良好地互动创新[2]。在2014年10月由国务院印发《关于加快科技服务业发展的若干意见》中明确了研究开发、技术转移、检验检测认证、创业孵化、知识产权、科技咨询、科技金融、科普等科技服务业重点发展领域,从顶层设计对科技服务业发展做出的全面部署。2016年,中国各类技术交易市场超过1000家,全年技术合同成交额同比增长15.97%,突破1万亿元大关,表明科技服务业有着广泛需求与良好前景。
与此同时,科技服务业政策的数量不断增多,内容日趋复杂,其政策中的语义存在广泛的联系,需要系统化、定量化的分析。那么,中国科技服务业政策特征如何、政策语义的相互关系如何、政策的演变轨迹及政策工具如何呢?随着近年来学界在政策定量化研究、自然语言处理领域的快速发展,文本挖掘技术日趋成熟,能量化分析政策的语义特征、演化路径,具有其他政策分析技术难以比拟的作用[3]。本研究结合扎根理论,设计了科学的政策文本挖掘流程,将中国科技服务业作为一个独立完整的产业,对其政策进行系统的量化与演变分析,并结合政策工具视角。
1 文献回顾
1.1 政策文本量化研究
目前,在政策量化研究领域,还没有权威公认的政策分析结构框架,但是根据不同的研究需要,已经有一些学者对不同政策(公共政策、创新政策、产业政策等)进行尝试性的量化研究。大部分学者对产业政策的量化分析,遵循着先建立政策数据库,然后人工精读并依据量化标准对政策文本进行编码及分类,得出政策维度的统计分析结果。近年来,随着文本挖掘与语义分析技术的不断成熟,用于政策量化研究的文本挖掘已成为包括计算机科学、公共行政科学和管理学等广泛研究领域的新技术[4]。学者已经认识到文本挖掘技术实际上可以在许多方面的政策研究中发挥重要作用[3]。文本挖掘技术帮助研究者以低成本处理文本信息和发现新知识,可以自动处理海量的信息,并提高程序的有效性和效率[5]。在政策量化研究上,不少学者的研究成果表明,文本挖掘及其相关技术不仅能细致的分析政策的结构特点、内部关系,还能构建政策框架,显现政策的宏观特点、演变趋势等[3,6-7]。
但随着政策研究的深入,发现关键词的抽取由于受分词算法、分词词库、停用词库的直接影响,容易分词过细,这会导致某些常用词语出现频率较高,形成噪声,若草率删除这些常用词来提高信噪比,可能忽视文本的特征,引起语义网络的扁平化,从而导致语义规则的建立难以符合客观规律[8-9]。因此,建立贴合研究主题的关键词是目前政策文本挖掘研究的重点[10]。本研究对关键词的选取,同时利用新词发现算法和TF-IDF算法,基于扎根理论思想并结合实践,筛选构建科技服务业政策文本的关键词。
1.2 科技服务业政策研究
科技服务业的发展引起了国内外学者的广泛关注,不少学者对科技服务业的发展及支持政策进行了研究。张前荣等学者比较研究了国内外的科技服务业政府行为及政策支持体系[11]。张玉强等学者分析了激励政策的现状、效果,并对构建政策体系提出理论框架[12]。张清正等则探讨了中国科技服务业聚集发展模式理论、影响因素[13]。综上,目前学界相关研究多集中在对比研究、理论体系构建、政策建议三个方面,且大多属于定性的论述分析,对中国科技服务业政策内涵缺少定量方法的研究分析。
2 科技服务业政策文本数据库及研究设计
2.1 政策来源
科技服务业政策是指旨在促进科技服务的水平、质量和效率及提升行业创新能力的一系列政策措施、条例、规章、法律、法令等。本文通过有关中国政府网站、中国法律知识资源总库等多种渠道依据公开性、权威性以及相关性的原则进行政策数据收集。涉及的政策为2006—2016年,由中央政府(国务院、各部委)颁布的政策文本。
政策文本数据库的构建策略为:首先以“科技服务业”为关键词进行精确查找,然后以国务院2014年认定的科技服务业重点领域以及 “高技术服务业”等为关键词进一步进行检索,初步收集政策296篇;对政策内容进行逐一阅读筛选,剔除重复的政策、相关度不高或已失效的政策,最终筛选出60篇相关度较强的政策作为素材。
2.2 研究设计
在政策研究中,传统的政策文本分析是扎根理论在政策分析中的实际应用。文本挖掘技术则可以从海量政策数据中抽取隐含的知识,解读和获知政策的立场、倾向以及广义的政策比较分析。本研究将扎根理论和文本挖掘方法相结合,建立文本挖掘模型,应用到科技服务业政策研究中。研究工具采用R语言及其Rwordseg和tmcn包、中科院ICTCLAS(2016版)分词系统、Ucnet 6软件。
3 科技服务业政策文本挖掘分析
3.1 文本预处理
基于扎根理论对收集到的政策文本内容逐一阅读,分解、筛选,剔除相关度不高的内容,预处理为若干条文本,共获得227条政策文本。并且从权威性、指导性等方面对政策的力度进行评价与加权,将评价加权后的每条政策单独作为一行,建立语料库[14]。预处理后的文本可以有效降低文本挖掘的噪声。
3.2 关键词提取与分词处理
政策中有很多专业性的特定词汇,而现有的通用词库难以涵盖,也并未有权威的政策词库,因此根据“二元语法”的新词发现模型,提取新词[15]。将任何连续词序列定义为“w1·w2·w3…wn”,wi词频为dfi,遍历序列,相邻两个词语组合为“wj+wj+1”(1≤j≤n-1)。若wi后面紧跟wj,记为:wi⟹wj,则它们组成新词的概率为p(wi|wj)=dfij/dfi。每个首词分别计算与其共现的所有K个尾词的共现频次均值:
(1)
将共现频次在均值之上的词汇组合作为新词。根据ICTCLAS的首次分词结果,提取出新词121个。统计语料库中每个词在整个政策文本中的词频,含该词的政策文本数,运用TF-IDF算法进行排序。
在深入研读政策文本的基础上,基于扎根理论结合实践,对TF-IDF算法排序前200的关键词进行详细的筛选,选出能体现政策内容且至少出现在3条政策文本中关键词,以提高文本挖掘的信噪比[3,14]。①政策中多采取无主句形式,因而动词的出现机会很大,故对政策文件中会反复出现的高频动词进行过滤,如“鼓励”、“引导”“支持”等词汇;②政策文本中“平台”、“模式”和“机制”之类的名词也出现较多,难以反映政策其客观性,故进行细化和删除;③科技服务业是以企业为服务主体,重视市场导向,故剔除“企业”“市场”等简单词汇,将其细化为“高新技术企业”、“中小企业”、“技术市场”、“市场化”等有特征的具体词汇;④结合哈工大停用词表对副词、语气词以及一些词意不明的新词如“鼓励国内”等进行过滤,对含义重复的词进行归并。按词意对关键词进行分类与编码,共75个关键词,见表1。对比其他的政策文本挖掘,本研究提取的关键词从词意上看,有较高的专业化、代表性和区分度。
表1 基于扎根理论的关键词
注:括号内的词为归并的同义词。
3.3 语义网络分析
利用这些关键词对分词后的每条政策文本进行过滤,形成行特征词用于语义网络分析。统计每条政策文本的行特征测词,利用加权的Ochiai系数计算相关矩阵。假设含关键词wi的政策集合为{H|D1,D2,…,DH},含关键词wk的政策集合为{L|D1,D2,…,DL},wi和wk同时出现的政策集合为{M|D1,D2,…,DM}中,政策Dm的政策力度权重为WDm,则wi和wk在共现矩阵中的相关系数为:
(2)
将相关系数矩阵制成语义网络,并且分析节点(关键词)的程度中心度,以节点大小表示,选取相关系数大于0.15的连接,见图1。
语义网络图可以反映政策的主要关注问题和强度,了解关键词的内部关系和分布情况[16]。分析发现,科技服务业政策语义形成了以部分关键词为核心,内容相对分散,各有侧重的语义网络。直观体现出科技服务业中成果转化、技术转移方面处于语义网络的中心且中心度较高,工业设计、研究开发、科普等在语义网络的边缘且中心度较低。同时统计关键词中心度(见图2),发现科技服务业政策侧重技术转移服务、知识产权服务等领域。图1中还发现专业化、服务体系、服务能力等在语义网络中有所体现,但目前科技服务业的服务体系、服务能力和服务效果既未能满足广大中小企业的低成本普遍服务需求也未能满足大型企业的高端服务需求,政策效果一般[17]。
3.4 自我网络分析
为了能细分语义网络,现有的一些研究中对语义网络进行了小团体分析[3,14]。但是,小团体的构成门槛高,其语义小团体就可能割裂了语境、含义间的联系。本研究利用自我网络来进行细分研究。
图1 科技服务业政策的语义网络图
图2 科技服务业各领域关键词的累计中心度
(1)科技服务业领域的语义自我网络。自我网络分析发现,技术转移服务、知识产权服务、科技咨询这些领域的自我网络包含了较多的关键词,支撑政策丰富且完整。在技术转移领域的自我网络中,成果转化、技术交易和技术转移为核心,与众多政策主体如行业协会、高校等有关联,并与信息服务、引导基金、税收政策等措施相关,见图3。知识产权服务领域的自我网络表明,市场化、专业化和国际化是该领域的发展要求,针对中小企业和微企业开展知识产权管理服务,采用了公共服务、信息服务、市场准入等多种措施。在科技咨询领域的自我网络中,包含大部分政策主体,并有服务外包、人才培养等多种政策。创业孵化领域自我网络表明,政策措施上采用了引导基金、专项资金,税收政策等,并强调了天使投资、创业投资。研究开发服务领域仅和高校、产业集群等不多的关键词体组成自我网络,其中只有基地建设、公共服务等少数政策措施,见图4。检验检测认证领域的自我网络仅有集聚发展,构建服务、政策扶持少数措施类关键词,且与大部分政策主体缺少关联。科技金融领域的自我网络只有政策环境、合作等关键词。科学技术普及领域的自我网络则是仅有高校、增值服务等少量关键词的稀疏网络。上述表明研究开发服务、检验检测、科技金融和科普这些领域尚未形成丰富全面的政策支撑。
(2)政策主体的语义自我网络。在企业类关键词为中心的自我网络中,中小企业、微企业处在网络边缘,且与其他主体鲜有连接。生产力促进中心在发展方向上,注重专业化、市场化,但是缺少其他的政策主体的联系,未能形成协同互动。高校、科研院所的语义自我网络中,虽然与创业孵化、技术转移等关键词联系较多,但与公共服务、信息服务等政策措施的连接数量相对偏少。
(3)政策措施的语义自我网络。语义自我网络分析发现,缺乏激励性政策措施,政策措施组合比较少见。监管等行政措施只针对并购重组、行业协会;税收政策针对高新技术企业、技术创新和技术服务;财政资金和专项资金主要针对创业孵化、中小企业,引导基金针对知识产权运营和成果转化等少数方面;政府购买仅有公共服务、信息服务;鲜有政策措施组合,仅有财政资金和专项资金、引导基金和创业投资等少量组合。
图3 技术转移领域的语义自我网络图
图4 研究开发服务领域的语义自我网络图
从上述语义自我网络规模、连接数量等方面直观地表明:在现有科技服务领域中比较重视技术转移、知识产权服务、科技咨询等领域,对研究开发服务、检验检测、科技金融和科普这些领域的缺乏关注;政策主体间缺少联系,多政策主体的协同政策缺乏,激励性政策措施不足,政策措施组合单一。
3.5 政策演变
2009年以前,科技服务业政策零散地出现在科技政策中,2010年始高技术服务业和现代服务业的相关政策中明确提出了发展科技服务业,而在2014年国务院出台了《关于加快科技服务业发展的若干意见》这一里程碑的政策。因此,所选取的相关政策时序可划分为三个阶段,分别是2006—2009年(准备期)、2010—2013年(初级期)、2014—2016年(发展初期)。
绘制三个阶段的政策语义热力图。发现:首先,促进成果转化和技术转化的政策一直是科技服务业重点。其次,政策热点逐年持续增多,第一和第二阶段间只有少数热点,而在第三阶段则涌现出了更多的热点(见图5),一些政策热点仅出现在某阶段,其他阶段则突然减弱,未能形成持续5年以上的长效政策。再者,从各类政策措施运用上看,第一阶段主要运用政府购买、财税措施,第二阶段各类政策措施略有增加,第三阶段政策措施运用增多,但在一些新兴科技服务业领域仍有空白。表明政策的制定、出台和执行上缺乏时效性、连贯性和持续性,现有政策大多滞后,并不适应产业发展的阶段需求和导向。
图5 2014—2016年政策语义热力图
3.6 政策工具视角进一步分析
政策工具是政策实施的具体手段,也是政策成功与否的关键[18]。借鉴现有研究,将科技服务业政策所涉及的政策工具分为供给面、环境面和需求面并结合前文开展进一步分析[19]。根据不同政策工具的核心关键词对每条政策文本进行统计,并进行人工复查与筛选,若某条政策使用多种政策工具,则所有政策工具都进行统计,共统计到326次政策工具,见表2。发现政策工具应用不均衡,环境面和供给面政策工具占比过大,存在过溢风险和对需求面政策的挤出效应,需求面政策工具应用较少。供给面政策占总使用频数的32.82%,环境面政策工具占政策工具总使用频数的58%,需求面政策占总使用频数的8.9%。目前,各地政府花费大量资金在建设的各类创新平台、双创基地等基础设施上,势必对政府采购等需求面政策产生挤出效应。在环境面政策工具中出台了大量反复强调的政策,也说明这些政策工具过于空泛,可执行性不足,导致政策效果欠佳,出现政策失灵与过溢。图1中也直观地体现出,环境面和供给面政策工具的关键词在整体政策语义网络中有较高的中心度和较多的连接数,而需求面政策工具的关键词则处于语义网络的边缘,连接也较少。政府采购仅限于购买公共科技服务,而服务外包仅针对部分咨询和信息服务的外包,贸易管制仅采用了市场准入,平均频次总占比低于3%。表明需求面政策应用过于谨慎、保守,虽然避免了权力寻租与市场不公平,但增加了市场的不确定性,削弱了需求面政策对科技服务业发展的直接拉动力。
表2 政策工具运用统计表
4 结论及对策建议
中国科技服务业政策领域侧重于技术转移、知识产权服务等,缺乏对研究开发服务、检验检测和科技金融等的关注;科技服务业服务能力体系建设未能满足企业需求,政策效果一般;政策时效、连贯和持续不足,未适应产业发展阶段需求和导向;多政策主体的协同政策缺乏,激励性政策措施运用不足,政策措施组合单调;政策工具应用不均衡,以环境面政策工具居多,供给面政策工具次之,有过溢风险和挤出效应,需求面政策工具应用不足。据此提出以下对策建议:
(1)全面发展科技服务业各领域政策,加大对研究开发服务、检验检测和科技金融等领域的政策支撑,注重产业服务能力体系建设,匹配产业发展需求和战略导向。中国企业对工业设计、研发外包有着愈发巨大的现实需要,加强研发服务领域的政策扶持力度,通过专业化的科技服务满足企业的创新需求,实现创新驱动发展。同时,制定科技服务业服务能力提升专项政策,建立服务水平的评价、考核体系,结合市场提升行业整体服务水平。政策的制定、出台和执行上要与时俱进,积极匹配产业发展各阶段需求和充分服务产业战略导向,使得科技服务业真正发展成为普遍的有竞争力的独立完整产业,在一些地区如北京、上海、江浙和广东等还要发展成为支柱产业,匹配服务中国“智造”。
(2)补充科技服务业各主体协同政策,构建协同机制,加强激励性政策措施运用,丰富政策措施组合手段。出台包含多主体的协同政策,有利于明确目标、责任与义务,也有利于技术转移、研究开发服务等需要政产学研协同的领域发展,有利于调整各主体间关系,形成新型健康的产业治理格局。同时,持续提高财政资金、引导基金和专项资金的管理运营水平,多措施组合,精准激励,积极扩大税收优惠范围力度仍是最有效的激励性政策措施。
(3)平衡政策工具应用比例,优化政策工具结构,适当降低环境面政策工具使用率,加强需求面政策工具应用。对有溢出风险和挤出效应的政策工具的目标、执行和管理建立有效的评价机制,避免重复投入。扩大资金支持政策的广度,重视人才、基础设施治理等“软供给”工具。中国科技服务业正处在一个发展初级阶段,市场需求相对有限,扩大科技服务需求,加强政府购买、服务外包、后补贴等多方式政策工具的直接应用,提高科技服务业自身“造血能力”,拉动科技服务业整体发展,确实激发市场配置潜力。
[1]张振刚,李云健,陈志明.科技服务业对区域创新能力提升的影响——基于珠三角地区的实证研究[J].中国科技论坛,2013(12):45-51.
[2]张琴,赵丙奇,郑旭.科技服务业集聚与制造业升级:机理与实证检验[J].管理世界,2015(11):178-179.
[3]张永安,闫瑾.基于文本挖掘的科技成果转化政策内部结构关系与宏观布局研究[J].情报杂志,2016(02):44-49.
[4]ZHANG Y,ZHANG G,CHEN H,et al.Topic analysis and forecasting for science,technology and innovation:Methodology with a case study focusing on big data research[J].Technological forecasting and social change,2016,105:179-191.
[5]MASSEY A K,EISENSTEIN J,ANTON A I,et al.Automated text mining for requirements analysis of policy documents[J].2013 21st IEEE International Requirements Engineering Conference(RE),2013:4-13.
[6]SHIM J,PARK C,WILDING M.Identifying policy frames through semantic network analysis:an examination of nuclear energy policy across six countries[J].Policy sciences,2015,48(1):51-83.
[7]CHOI C,LECY J D.A semantic network analysis of changes in North Korea’s economic Policy[J].Governance-an international journal of policy administration and institutions,2012,25(4):589-616.
[8]秦春秀,祝婷,赵捧未,等.自然语言语义分析研究进展[J].图书情报工作,2014(22):130-137.
[9]PRIOR L,HUGHES D,PECKHAM S.The discursive turn in policy analysis and the validation of policy stories[J].Journal of social policy,2012,41(2):271-289.
[10]裴雷,孙建军,周兆韬.政策文本计算:一种新的政策文本解读方式[J].图书与情报,2016(06):47-55.
[11]张前荣.发达国家科技服务业发展经验及借鉴[J].宏观经济管理,2014(11):86-87.
[12]张玉强,宁凌.科技服务业激励政策的多元分析框架[J].科技进步与对策,2011(12):106-111.
[13]张清正,李国平.中国科技服务业集聚发展及影响因素研究[J].中国软科学,2015(07):75-93.
[14]陈慧茹,肖相泽,冯锋.科技创新政策加权共词网络研究——基于扎根理论与政策测量[J].科学学研究,2016(12):1769-1776.
[15]贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004(20):19-21.
[16]LIM S,BERRY F S,LEE K.Stakeholders in the same bed with different dreams:Semantic network analysis of issue interpretation in risk policy related to mad cow disease[J].Journal of public administration research and theory,2016,26(1):79-93.
[17]赵冬梅,陈前前,吴士健.双创环境下发展科技服务业助推经济转型升级问题研究——以江苏科技服务业为例[J].科技进步与对策,2016(14):41-46.
[18]CAPANO G,LIPPI A.How policy instruments are chosen:patterns of decision makers’ choices[J].Policy sciences,2017,50(2):269-293.
[19]谢青,田志龙.创新政策如何推动我国新能源汽车产业的发展——基于政策工具与创新价值链的政策文本分析[J].科学学与科学技术管理,2015(06):3-14.