量化分析:政策文本研究的新方法
2019-07-02张秀妮
张秀妮
〔摘要〕 为了避免政策文本定性研究的主观性、不确定性,量化分析成为了政策文本研究的新方法。系统梳理政策文本量化分析研究的数据源、涵盖内容、研究方法、采用的主要工具等,对量化分析在政策文本研究中的正确应用具有十分重要的现实意义。实践中,需构建结构化的政策文本数据库和语料库,创新政策文本内容挖掘、识别、分析等研究方法,以推动政策文本量化分析研究再上一个新的台阶。
〔关键词〕 政策文本;量化分析;主题内容;分析方法;定性研究;数据
〔中图分类号〕F204 〔文献标识码〕E 〔文章编号〕1009-1203(2019)03-0119-05
政策文本是政策内容的载体,是政府处理公共事务的真实反映和行为痕迹,是对政策系统与政策过程客观的、可获取的、可追溯的文字记录 〔1 〕。一直以来,多数学者的关注点聚焦在采用定性研究的角度分析政策文本的作用、地位或者其系统协调配置等,但随着政策文本透明度的增加,越来越多的政策文本可以被作为研究对象。同时,许多学者开始运用文献计量、知识图谱、数据可视化和文本语义分析等量化研究方法对一些政策文本进行研究,从而在一定程度上避免了政策文本定性研究的主观性、不确定性和模糊性。政策文本量化分析是指在研究过程中引入统计学和文献计量学等学科方法,对政策文本内容与外部结构要素进行量化分析,并结合基于文本内容的定性分析方法,梳理政策议题的历史发展脉络、政策发布主体的府际网络关系以及政策工具的选择与组合、政策的主要关注点等公共政策研究问题,已成为政策文本研究的新手段。笔者在认真研读政策文本量化分析研究相关文献的基础上,从政策文本量化分析研究流程中选取政策文本获取、政策文本关注点(政策主题、府际关系、政策工具、政策变迁)和政策文本量化分析研究主要方法以及工具应用等视角,系统总结了当前政策文本量化分析研究涵盖的内容及其主要研究方法,以期为广大学者开展相关研究提供有价值的参考与借鉴。
一、政策文本的获取
研究者在政策文本获取过程中,根据不同的研究目的选择不同的政策文本数据集。目前,政策文本数据的获取主要有以下几个途径:
一是政府官网。研究者通过政府官网主要搜索国务院各部委、各省、自治区、直辖市以及地、市等政府门户网站中发布或公开的政策文本,并把其作为相关研究的數据来源。笔者认为,研究者通过政府门户网站搜集的政策文本数据,具有客观可靠等优点,但可检索性较差。二是专业政策数据库。许多学者在搜集政策文本数据时,使用科技部人才中心网政策数据库、全球法律法规网、清华大学政府文献信息系统、北大法律信息网(北大法宝)和法律之星等专业政策数据库。其中,北大法律信息网使用频率相对较高。该数据库建立于1999年,共包括八个分数据库,并且提供法律引用信息,是我国成立最早、信息最全面的法律信息检索数据库,可免费检索,使用也比较方便,能够为政策文本研究提供坚实的保障。法律之星系统建立于1986年,是一套完整的法律法规文件检索系统,涵盖了中央和地方政府批准、颁布的各类现行法律、行政法规、部门规章、司法解释、规范性文件等。三是百度、google等搜索引擎。公开的搜索引擎是政策文本补充检索的有效手段,既可以查缺补漏,也可以有效利用追踪检索手段找到相关的政策文本。四是公开出版物。公开出版的政策汇编一般都是针对某一类或者某个部门整理收集出版的汇编材料,有时能够查询到在网络数据库中检索不到的政策信息。
实践中,为确保政策文本数据的真实性和完整性,一些研究者在获取数据时采用三角检定法,通过多种来源的政策样本提高资料的丰富程度和覆盖程度 〔2 〕。政策文本数据获取后应注重筛选,以保证数据集的质量。研究者一般主要选取法律法规、规划、意见、办法、细则、条例、通知等体现权力部门政策意志的公文形式。
二、政策文本量化分析研究的主要关注点
目前,量化分析在政策文本研究中的应用越来越广泛,应用比较多的是科技创新、成果转化、科技人才、科技金融等领域。这其中,科技成果转移转化政策文本是研究者量化分析研究的重点。另外,量化分析在住房保障、节能减排、产业转型升级、信息产业等政策文本的研究中也有所应用。近年来,人们对政策的关注度不断提高,不再局限于采用传统的方法来研究政策文本,而是尝试通过应用各种科学的方法多维度多角度挖掘政策文本深层次的内涵以及带来的影响力。量化分析在政策文本分析中的应用,主要体现在采用量化分析的各种方法来分析政策发布主体的府际关系、政策主题内容、政策变迁脉络、政策工具、政策扩散等。
(一)府际关系
府际关系是指不同层级政府之间的相互关系,包括中央与地方政府之间的关系,地方政府间的纵向及横向关系,政府内部各部门之间的权力分工关系等。政策文本的联合发文,可以反映政府部门之间的合作程度,揭示某一领域政府部门之间的职能分工和合作关系,为研究政府部门之间的府际关系提供了一条途径。章文光等认为,国内府际关系表现为各政府部门之间的横向关系、中央与地方政府之间的纵向关系、既考虑横向又考虑纵向的复杂关系 〔3 〕。目前,研究府际关系中同级部门的横向关系的学者较多,如黄萃等通过科技政策发布部门之间的网络图谱的节点数、连线数、直径、平均路径长度、密度等指标,分析不同阶段政府部门之间合作发布政策时上述指标的变化,从而研究部门间合作关系的广度和强度 〔4 〕。由于政策文本收集和引用关系结构化信息的不完整等原因,研究纵向和复杂府际关系的学者不多,但是该类研究具有很强的现实意义,可以反映出某些领域政策扩散、传播的途径和方式,以及政策的影响力。
(二)政策主题内容
学者根据不同领域政策的特征和需求,构建二维或者多维的分析框架,并基于政策文本内容,采用政策编码分类法来研究政策主题。王霞等将抽样的上海市科技政策文本按照资源使用方式和政策功能两个角度进行人工评判,采用二值数据“1”和“0”分别表示是和否,对每条政策文本进行编码 〔5 〕。钮钦等基于政策工具和商业生态系统,构建了农村电商政策的二维分析框架,采用分析单元定义和编码归类的方式进行中国农村电子商务政策文本内容分析 〔6 〕。王永杰等在深度研究《促进科技成果转化法》政策文本的基础上,结合近年来学者对我国科技成果转化问题的研究观点,通过11个维度分析我国科技成果转化政策文本的内容 〔7 〕。
(三)政策变迁的脉络
随着政府执政理念的转变,政策文本作為政府履行职能的真实“印迹”,其体现的政策目标与主题也在随之发生着变化,反映出政府执政理念的变迁脉络。一些学者基于不同的科技文本数据集,根据政策主题热点的逐步变迁,认真描绘政策主题的变迁脉络。研究者采用的方法多数是基于不同时段的政策高频主题词的变化,或者精读不同时段政策内容的方法来研究政策变迁的脉络。
(四)政策工具
政策工具是目前学者在开展政策文本量化分析研究时比较重要的关注点。政策工具分类以Rothwell&Zegweld(1981)的政策工具分类作为主流,分为供给政策工具、需求政策工具、环境政策工具三大类。供给类政策工具主要包括基础建设、资金投入、人才培养、公共服务、教育培训、信息支持等,需求类政策工具主要涵盖政府采购、服务外包、海外机构、贸易管制等内容,环境类政策工具主要包括财务金融、税收优惠、策略性措施、法规管制等。许多研究者都是以Rothwell&Zegweld政策工具分类作为逻辑基础的,同时借鉴同行的研究成果,从供给、需求和环境三个维度来考量政策工具。还有学者借鉴Mcdonnell等人的权威、能力建设、激励、系统变革和劝诫五种类型的政策工具思想,对政策文本工具进行分析,提出中国科技人才政策工具由以权威、劝诫为主,逐渐转向能力、激励和系统变革类 〔8 〕。熊勇清等借鉴了《中国产业发展和产业政策报告》的分类标准,将产业政策归纳为调整振兴、行业规制、行业整合和产业培育四类 〔9 〕。科技部政策法规与创新体系建设司贺德方司长将我国科技创新政策体系总结为涵盖要素、创新主体、创新关联、产业创新、区域和环境六大类政策 〔10 〕。
(五)政策扩散
政策扩散是指一项政策方案从一个地区或部门传输到另一个地区或部门,并被新的政策主体采纳、推行实施的过程。张剑等在分析政策文本发布时间、主题和关键词等基本信息的基础上,采用政策参照网络与关键词时序分析方法,以1985-2014年我国科技成果转化政策为例研究了公共政策的扩散过程和特点 〔11 〕。黄萃等把科技政策文本的引用模式概括为星型、延伸星型、雪花型和双(多)子型网络四种 〔4 〕。
三、政策文本量化分析研究的主要方法
学者在政策文本分析过程中进行府际关系、主题内容、政策变迁脉络、政策工具或政策扩散等内容的研究时,均会涉及应用文献计量学、社会网络中的一些研究方法。共词分析法、聚类分析法和网络分析法是政策文本量化分析研究的主要方法。
(一)共词分析法
在政策文本分析中采用共词分析法时,假设在政策文本中“两个词之间的共词强度越高,则这两个词间的关联越紧密”。共词分析法可以通过对某一政策领域中政策文本的关键词或主题词共同出现在同一政策文本中的现象进行分析,判断该政策领域中关键词的关系,从而展现该政策领域的主要关注点或结构 〔12 〕。对于特定的政策文本数据集而言,基于频次分析、聚类分析、多维尺度分析的共词分析可以挖掘政策主题,而研究不同时间序列上的政策主题则可以揭示政策主题的变迁 〔13 〕。
(二)聚类分析法
聚类分析法是指在共词分析法频次统计基础上,将关联密切的主题词聚集起来,从而形成代表不同关注点的聚类群组 〔14 〕。即首先利用量化统计方法对共词矩阵进行运算,共现频次相对较高的主题词形成小的聚类团,共现频次相对较低的关键词形成大的聚类团,展现一个关系由密切到疏远的主题词亲疏关系图谱 〔15 〕。吴爱萍等通过ward聚类算法将关键词归成大小不同的聚类,探究政策的主要关注点,并将得到的聚类进一步进行多维尺度分析(PROSCAL),从而探索这些类群之间的相互关系 〔16 〕。
(三)网络分析法
政策文本量化分析中比较典型的网络分析法主要有府际网络关系法和参照网络关系法两种,分别反映政策发布主体的合作关系和政策的扩散模式。府际网络关系法是指政策发布主体之间的合作关系构成相互之间的网络结构。参照网络关系法是指一个政策文本以另一个或几个政策文本作为制定依据,形成政策文本之间的引用关系,这种引用关系将孤立的政策文本连接起来构成网络结构。研究者借助网络关系法,可以分析政策主体的行政影响力,在整个政策体系中的重要程度、所扮演的角色,并反映政策主体之间响应的速度、广度和强度等。
四、政策文本量化分析研究的主要工具
研究者在采用共词分析法、聚类分析法和网络分析法对政策文本进行量化分析时,会涉及使用关键词提取、矩阵构建以及可视化展现等方法和工具。笔者总结了几种比较典型的政策文本量化分析研究的工具及其使用方法,以供研究者参考借鉴。
(一)关键词提取工具
在共词分析的过程中势必会涉及关键词的提取。因政策文本的特殊性,其本身并没有关键词字段,但在研究政策文本主题时,需要提取关键词,并对其进行标注。研究者在标注时可以参考国务院《公文主题词表》,但该词表不能完全涵盖一些最新词汇,因此在关键词处理时会通过人工或机器自动提取关键词。
多数研究者采用人工提取关键词的方法,为政策文本提取关键词并进行分析,认为高频词可以减少低频词对分析结果带来的干扰。但是这一方法存在很大的人为因素风险,如受人的主观意向、知识结构、认知水平的影响,不能完全客观反映政策文本的主题内容。因此,有学者开始借助分词工具,在词频统计的基础上,采用共词分析法或聚类分析法等研究受关注程度高的主题词及其相互之间的潜在关系。
研究者采用较多的分词工具是中科院的ICTCAS,这是张华平老师推出的中文分词系统,于2009年更名为NLPIR,系统中除了中文分词、命名实体识别和词性标注等基本功能外,还具有科技政策分词及新词添加功能,是中文分词界“元老级”工具,具有free版本的源代码 〔17 〕。张骁等使用该工具完成政策文本的分词及关键词的提取 〔18 〕。吴宾等利用Wordsmith Tools软件中的Keywords工具结合人工来提取政策主题词 〔15 〕。张永安等在文档集的分词处理中采用ROSTCM6文本挖掘软件,分词后进行高频词统计,按照词频由高到低依次显示结果 〔19 〕。程华等运用R软件对政策数据集的关键词进行提取,结合研读政策文本内容、咨询专家之后剔除无效词 〔20 〕。张骁等基于扎根理论,利用新词发现算法和TF-IDF算法,并结合实践筛选科技服务业政策文本的关键词 〔18 〕。吴爱萍等在高频关键词的提取中运用扎根理论,以政策主体、目的和工具作为框架,对政策语句进行加工,逐步构建开放性编码和轴心编码,在此基础上寻找各范畴之间的相互关系,从而得到政策的轴心编码,并接着从开放性编码中统计高频关键词 〔16 〕。章文光等选用主题法,并通过QSR NVivo文本分析软件对关键词进行标注后建立节点,对全部政策文本进行编码,统计编码数量及频次 〔3 〕。郭高晶运用NVivo10软件对政策文本进行开放式编码,在此基础上定义和提炼与政府职能转变相关的主题关键词并形成词库 〔21 〕。
(二)矩阵构建工具
目前应用比较多的工具有excel透视表、DDA、bibexcel,其各自的使用方法及优缺点如表1所示。部分学者在构建矩阵过程中采用不同的算法得到所需的矩阵,如吴爱萍等基于Cosine相似度构建关键词相似矩阵 〔16 〕,娄文龙等运用bibexcel软件进行主题词词频统计,结合改进后的普赖斯公式法确定高频主题词,并建立共词矩阵 〔22 〕。
(三)可视化展现工具
可视化图表可以直观地展现出节点之间的关系,清晰美观,使用较多的工具是,Ucinet结合netdraw绘图软件和spss软件。采用Ucinet软件可以绘制府际关系图、关键词共现网络图等,并可以使用其进行中心性和小团体分析。陈慧茹等利用Ucinet软件小团体分析中的n-clique功能,将高频关键词进一步分成若干个小团体聚类之后,再分析各聚类代表的含义,从而研究政策的结构关系 〔23 〕。研究者可运用SPSS软件的系统聚类法对初始数据进行转化,得到政策主题词亲疏关系图谱,也可以将关键词矩阵导入SPSS软件,采用因子分析法生成总方差表,依据因子数与涵盖的信息量等相关数据来确定政策文本中高频关键词的最小聚类数。张永安等运用ROSTCM6文本挖掘软件处理抽取出的有效关键词及共词矩阵,自动生成语义网络图,以解读高频词间的连接方向及关系紧密程度,缺点是不能进行数值分析 〔19 〕。张剑等运用Node XL工具,不僅以政策颁布机构作为节点,依据政策文本参照关系进行节点间箭头的累加合并,构建政策引用网络并进行可视化展示,而且通过自动布局算法计算各政策文本的参照频次、被参照频次、中心度等,以研究政策颁布机构间政策扩散的强度、广度、速度和方向 〔11 〕。
五、应用前景
(一)政策文本量化分析的基础有待加强
政策文本量化分析研究需要准确全面的政策数据库和语料库作为基础。目前,我国虽然已经有科技部人才中心网、全球法律法规网、清华大学政府文献信息系统、北大法律信息网和法律之星等专业政策文本数据库,但其利用率和可用性有时并不高,基本上只具有简单的检索功能,其数据库基础也并不像文献数据库一样功能强大、信息完备。因此,在政策文本量化分析研究的过程中,数据的收集、存储和管理耗费了学者很大的精力。笔者认为,只有构建了结构化的政策文本数据库,结合政策文本量化分析研究工具的研发和应用,政策文本内容的挖掘、识别和分析的理论研究和方法创新才会加速发展,进而才能推动政策文本量化分析研究再上一个新的台阶。
(二)量化分析在政策文本研究中具有广阔的应用前景
在大数据时代,随着信息技术的快速发展和海量数据的迅猛增长,信息计量具有的客观、透明和可重复性等特征也愈加明显,信息计量与其他学科经典理论、前沿研究相结合的跨学科的应用性研究已成为研究政策文本的热点和前沿。同时,我们也要认识到,量化分析是政策文本研究的重要工具,其效应会对政策的制定、执行与评估的战略性和系统性等方面起到重要的支撑作用。
(三)量化分析方法与其他学科的综合应用将成为政策文本量化分析研究的新手段
尽管量化分析法已经并将继续在政策文本研究中广泛应用,但我们也应清醒地认识到,量化分析法存在描述性强但解释力弱等不足,信息计量的“用数据说话”的做法不能超越经济、政治、社会等研究环境。今后,学者在进行政策文本量化分析研究时,应结合其他学科方法创新性的应用,客观、精准、全面地挖掘政策文本的真相,为科学决策和正确评价打下坚实的基础。例如,政策文本量化分析研究可以结合扎根理论、典型案例研究法,将量化分析研究的数据化、客观性和科学性与定性研究的针对性、有效性和深入性有机结合起来,以深入探讨政策文本的老化规律、政策预见等。
〔参 考 文 献〕
〔1〕黄 萃,任 弢,张 剑.政策文献量化研究:公共政策研究的新方向〔J〕.公共管理学报,2015(02):129-137.
〔2〕杨 正,田 进.政府数据开放利用的政策文献量化研究——一个三维分析视角〔J〕.情报杂志,2018(12):175-181.
〔3〕章文光,闫 蓉.基于政策文本计量的中国中小企业创新政策变迁研究〔J〕.湘潭大学学报(哲学社会科学版),2017(05):19-28.
〔4〕黄 萃,任 弢,李 江,等.责任与利益:基于政策文献量化分析的中国科技创新政策府际合作关系演进研究〔J〕.管理世界,2015(12):68-81.
〔5〕王 霞,郭 兵,苏 林.基于内容分析法的上海市科技政策演进分析〔J〕.科技进步与对策,2012(23):104-107.
〔6〕钮 钦.中国农村电子商务政策文本计量研究——基于政策工具和商业生态系统的内容分析〔J〕.经济体制改革,2016(04):25-31.
〔7〕王永杰,张善从.2009-2016:中国科技成果转化政策文本的定量分析〔J〕.科技管理研究,2018(02):39-48.
〔8〕刘忠艳,赵永乐,王 斌.1978-2017年中国科技人才政策变迁研究〔J〕.中国科技论坛,2018(02):136-144.
〔9〕熊勇清,侯玲玲.传统产业转型升级促进政策的变迁及特征分析——政策文本计量分析视角〔J〕.软科学,2013(05):32-36.
〔10〕梁 正.从科技政策到科技与创新政策——创新驱动发展战略下的政策范式转型与思考〔J〕.科学学研究,2017(02):170-176.
〔11〕张 剑,黄 萃,叶选挺,等.中国公共政策扩散的文献量化研究——以科技成果转化政策为例〔J〕.中国软科学,2016(02):145-155.
〔12〕苏敬勤,李晓昂,许昕傲.基于内容分析法的国家和地方科技创新政策构成对比分析〔J〕.科学学与科学技术管理,2012(06):15-21.
〔13〕李 江,刘源浩,黄 萃,等.用文献计量研究重塑政策文本数据分析——政策文献计量的起源、迁移与方法创新〔J〕.公共管理学报,2015(02):138-144.
〔14〕吴 宾,徐 萌.中国住房保障政策主题聚焦点的变迁——基于共词和聚类分析视角的分析〔J〕.城市问题,2017(05):89-97.
〔15〕吴 宾,杨一民,娄成武.基于文献计量与内容分析的政策文献综合量化研究——以中国海洋工程装备制造业政策为例〔J〕.情报杂志,2017(08):131-137.
〔16〕吴爱萍,董 明,李 华.“互联网+”与“大众创业、万众创新”政策结构分析——基于扎根理论和共词分析法〔J〕.科技管理研究,2018(10):44-52.
〔17〕NLPIR/ICTCLA2018分词用户体验日发布新语义技术〔EB/OL〕.(2018-07-16).http://blog.sina.com.cn/s/blog_711b22300102z0te.html9114903fac8a0f1da?page=2.
〔18〕张 骁,周 霞,王亚丹.中国科技服务业政策的量化与演变——基于扎根理论和文本挖掘分析〔J〕.中国科技论坛,2018(06):6-13.
〔19〕张永安,耿 喆,王燕妮.区域科技创新政策分类与政策工具挖掘——基于中关村数据的研究〔J〕.科技进步与对策,2015(17):116-122.
〔20〕程 华,樊笑然,张思潮,等.浙江科技人才创新创业政策的测量及演变〔J〕.科技与经济,2018(03):70-74.
〔21〕郭高晶,孟 溦.中国(上海)自由贸易试验区政府职能转变的注意力配置研究——基于83篇政策文本的加权共词分析〔J〕.情报杂志,2018(02):63-68.
〔22〕娄文龙,张 娟.中国房地产宏观调控政策变迁量化研究——基于共词和聚类分析的视角〔J〕.上海经济研究,2018(08):63-72.
〔23〕陈慧茹,肖相泽,冯 锋.科技创新政策加权共词网络研究——基于扎根理论与政策测量〔J〕.科学学研究,2016(12):1769-1776.
责任编辑 芳 晔