APP下载

基于LDA模型的新能源汽车政策文本量化分析

2021-02-22赵公民吕京芹武勇杰

科技和产业 2021年1期
关键词:六省层级文档

赵公民, 吕京芹, 武勇杰

(中北大学 经济与管理学院, 太原 030051)

随着环境污染与资源消耗问题日益严重,作为环保产业的新能源汽车受到广泛关注。国家十分重视新能源汽车的发展与规划,自2001年“十五”时期的电动汽车专项课题开始关注新能源汽车[1]。2010年开始大力召开相关会议开展新能源汽车推广工作,并颁布具体行业政策。《中国制造2025》报告中,新能源汽车的发展已经上升为国家战略[2]。2011年新能源汽车销量仅为8 259辆,2019达到120.6万辆,可见新能源汽车产业的快速发展与国家产业支持政策密不可分。因此,政策文本的量化研究对于新能源汽车的发展以及未来政策制定具有重要意义。

国内外专家学者们对政策文本的研究涵盖众多领域。国外学者Kitson等[3]收集1990-2010年近20年间的卫生政策进行研究,确定以患者为中心的护理核心要素;Talamini与Dewes[4]研究巴西有关政策文本与学术文献,分析液体生物燃料政策效果与科研成果之间的差异;Jansa等[5]收集了1984-2014年间美国50个州12项政策的法案文本,研究时间推移政策文本的全面性变化。国内学者曾婧婧[6]以2004-2014年间泛珠三角区域合作政策文本为研究对象,发现区域发展的差异性以及政府政策制定具有倾向性;黄萃等[7]以1978-2013年出台的1 298份科技文献政策为研究对象,发现政府间合作关系的发展趋势;苏飞与刘红[8]以省级政府数据开放政策为研究对象,发现开放工作中的不足并提出建议;谭玉等[9]对1998-2018年间出台的59篇大学生创新创业政策文本进行分析,总结出创新政策的特征;魏萍等[10]从实践、空间等维度研究湖北省294份“一带一路”建设政策,发现主体的扩散与聚焦点。

杨慧与杨建林[11]将政策文本量化分析方法分为文献计量、社会网络分析、内容分析以及文本挖掘等类型。在政策文本的研究过程中,文献计量方法应用领域十分广泛,刘颖琦等[12]运用文献计量的方法分析中国新能源汽车产业联盟在知识转移与技术创新等方面与国外的差距;郑征等[13]运用文献计量方法从年代分布、研究主题等角度分析离子液体领域的发展态势;潘丹等[14]综合运用内容分析法和文献计量法研究农村环境管理政策演变特征。社会网络分析方法一般与文献计量方法结合使用,李英等[15]结合文献计量方法与社会网络分析方法,以2005-2015年间的360篇文献为研究对象,探讨国际绿色车辆路径的发展态势;赵佳丽等[16]综合运用文献计量与社会网络分析法研究晋商活动的地理特征及山西的地理优势。关于内容分析法的应用,王薇与刘云[17]运用内容分析法对国家出台的47项新能源汽车政策从基本政策工具与价值链进行分析;谢倩等[18]运用内容分析法研究乡村教师支持政策。文本挖掘则可以深度分析文本的潜在含义,张永安与周怡园[19]采用文本挖掘的方法和PMC指数模型法对新能源汽车政策进行量化评价;朱青等[20]运用文本挖掘和分类方法,以医疗诉讼文本为研究对象,设计出辅助判决的决策支持系统。

通过阅读政策文本量化分析相关文献,发现文本挖掘方法能够凭借技术理性和机器效率对政策文本的潜在信息进行挖掘,并为其他政策文本量化分析方法提供支撑。但政策文本挖掘类的文献数量较少,而且主要聚焦于聚类、分类的研究视角。语义视角的政策研究补充是未来文本挖掘技术的焦点,而主题挖掘在语义研究视角方面具有特殊功能。因此,本文以2010-2019年国家、中部六省两个层级的新能源汽车相关政策作为研究对象,运用主题挖掘技术对政策的高频词、主题强度及年度变化进行量化分析,深入挖掘政策文本的潜在信息。

1 数据来源与研究方法

1.1 数据来源

新能源汽车政策文本包括国家、中部六省两个层级,国家层级政策文本主要从中国政府网、国家发展和改革委员会、国家能源局等门户网站进行搜集,中部六省的政策文本主要从相应的省市级的能源局、经信委、发展和改革委员会等相关门户网站进行搜集,并结合“北大法宝”(url:http://www.pkulaw.cn/)的搜索结果对政策文本进行整理。整理得到国家层级的政策文本45个,中部六省层级的政策文本共99个。

1.2 研究方法

20世纪90年代政策文本挖掘相关研究逐渐得到发展,研究对象从原始的非结构化文本发展至网页类的半结构化文本再至文献、报告等非结构化文本。信息技术的飞速发展对我们搜集信息数据的方式产生了影响,R语言的机器学习算法对于文本挖掘研究具有重要意义。主题挖掘能够深入文本内部,文档的主题研究以及分类、聚类研究都需要语义视角的补充,因此大规模语料库的多文档主题挖掘成为热点研究对象。主题挖掘的常用手段为主题模型,主要有潜在语义索引(Latent Semantic Index ,LSI)、概率性潜在语义索引(Probabilistic Latent Semantic Index ,PLSI)和潜在狄利克雷分配模型(Latent Dirichlet Allocation ,LDA)等[21], 由于LDA模型的主题分布具有预测训练集与非训练集文档和词,渐渐得到学者们的认可并给予完善, 使其成为研究非结构化多文本的有效工具。

2 主题挖掘模型构建

政策文本的特点是文本较长、语义完整且术语较多,与京东、淘宝等购物网站的评价类文本不同,政策文本不包含情感态度和个性差别。而且,政策文本与文献也有区别,其不具有文献中的总分结构,且语言表达内容与领域和类别的不同有关。由于政策文本的特性,要对政策文本进行全文挖掘,并将词层面和语义层面结合起来对文本内容进行主题分析。本文在学者们的研究基础之上,结合新能源汽车政策的相关特点,构建了主题挖掘模型,模型流程图如图1所示。模型分为文本获取、文本预处理、N-gram模型、高频词汇可视化及LDA主题模型几个部分。

图1 新能源汽车政策主题挖掘模型示意图

2.1 文本预处理

整理新能源汽车政策文本,得到有效政策文本为国家的政策文本45个,中部六省的政策文本共99个分别为安徽省25个、河南省24个、湖北省11个、湖南省9个、江西省12个、山西省18个。运用R语言中文分词包结巴分词(jiebaR),结合哈工大停用词表、与政策特征停用词进行停用词处理。

2.2 核心词汇及词组计算

Suen[22]提出N-gram模型处理文本问题,该模型在许多机器翻译和文本挖掘等问题的处理中得到应用。N-gram模型的中心观点是假定在标记流中仅有限定个连续标记会影响之后的标记。简单地说,若句子W由K个词组成,某个词的出现概率只与前K-1项有关:

(1)

并根据公式(1)进行核心词汇和词组的计算。

2.3 LDA模型构建及参数估计

Blie[23]在2004年提出LDA模型,LDA模型是基于PLSI模型对文档、主题、词三层结构对应分布做出改进,给文档-主题分布与主题-词分布参数分别加上狄利克雷先验分布,构成贝叶斯框架结构。从文档的文档-主题分布中得到相应主题,随后依据主题-词分布得到相应词,忽略文档、词语的顺序,一次性得到与词相对应的主题,之后逐次生成相应的词语并组织成文。文档中词的概率公式:

p(x|d)=Σtp(x|t)*p(t|d)

(2)

p(x|d)为主题-词分布,p(t|d)为文档主题分布,与相乘则为词-主题-文档模型。本文采用Gibbs抽样方法进行参数估计,将两个超参数α、β设置为0.10和0.02,迭代次数为5 000,得到国家层级的主题数为20,中部六省的主题数为20。

3 政策文本分析

3.1 政策文本高频词汇及分布

为更进一步了解新能源汽车政策文本的特征,对政策文本进行分析并以词汇频率作为指标进行排序,筛选出前20的关键词汇,如表1所示。由表1可知,除去新能源、汽车等词汇,国家、中部六省两个层级上充电、补助等词汇频率都较高,表明基础设施建设及财政补贴都是关注的焦点。

表1 高频词汇

为了更直观地观察两个层次的高频词汇,将词汇进行降序排列,选取前100个词汇制作词汇云图,如图2所示。云图中词汇的大小是由词汇的频率决定的,频率越高词汇字体越大。观察两个层级的云图可知,新能源汽车均为核心词汇,国家、中部六省层面中充电设施相较于其它高频词汇字体稍大,说明对充电桩等基础设施建设的重视程度较高。

图2 词汇云图

中部六省高频词汇的频率比国家高出两倍多说明各省市的出台政策的关注点较为集中。国家出台的新能源汽车政策,从高频词汇的频率方面来看动力蓄电池产业发展、节能发展和基础设施建设是国家着重强调的方面。中部六省是在国家政策的基础上根据地方特点制定的相关政策,更加注重充电设施建设、补贴补助等方面。

3.2 主题强度分析及可视化

主题强度是用来衡量国家和中部六省的每个主题相对分量,利用LDA模型中的文档-主题矩阵和主题-词矩阵,得到每篇文档与每个主题和每个主题与每个词的后验概率。主题强度公式如下:

(3)

其中,N代表文档的数量;θki代表第k个主题在第i个文档中的概率;pk代表第k个主题的强度。排名前20的主题强度如表2所示。由表2数据可知,经过软件运算所得到的主体强度分布情况与人工计算结果基本一致。选取强度数值最大的三个作为热门主题,最后确定国家主题(3,13,18),中部六省主题(5,10,20)。表3和表5分别为国家和中部六省两个层级主题相关度较高的特征词,与人工判断与语料查询相结合得出主题标题。表4、6则为两个层级的热门主题年度变化。

表2 主题强度分布

2014年Carson和Kenneth[24]提出了一种主题可视化方法:LDAvis。LDAvis以特征词和主题的关联程度选择表示主题的特征词,而且LDAvis可视化图可以帮助人们从整体的视角观察各个主题之间的关系。如图3、图4分别是国家、中部六省的LDAvis可视化图,其中每个圆代表一个主题,主题的文档数目以圆的大小表示,圆越大表示主题的文档越多,各个主题的关联程度以圆的距离表示,距离越近代表关联程度越大。

图3 国家层级LDAvis可视图

图4 中部六省层级LDAvis可视图

3.2.1 国家主题强度分析

由表3可知,3节能发展、13动力蓄电池回收、18基础设施建设是国家热门主题。伴随着环保问题越来越受到公众关注,集低污染、高智能于一体化的新能源汽车成为汽车产业发展的重点方向。在国家大力发展新能源汽车的基础之上,动力蓄电池作为其关键部件也呈现快速增长状态,由于电池充电与放电数量的增加呈现的衰减性,电池的寿命要远远小于汽车的寿命,因此电池的回收再利用是需要引起关注的重点问题。主题18基础设施建设,Sierzchula等[25]对30多个国家的新能源汽车数据进行实证分析,发现充电基础设施的建设是新能源汽车销售的关键因素。

表3 国家热门主题词及相关度

表4 国家热门主题年份变化表

随着能源匮乏以及气候问题越来越严重,新能源汽车等绿色产业的发展成为有效解决问题的方式之一,受到广泛关注。2010年国家开始系统性的出台相关政策推动新能源汽车的发展。蓄电池作为新能源汽车的核心部件,其使用寿命是5~8年。随着新能源汽车销量增加,蓄电池的回收利用成了需要关注的对象,2016—2018年主题强度显著上升是由于国家出台了6项蓄电池回收利用相关政策。主题18在2015年主题强度最高,是因为国家于2014年首次在政策中系统地提出基础设施规划。

3.2.2 中部六省主题强度分析

由表5可知,5新能源汽车发展、10公共设施建设、20财政补贴是中部六省热门主题。中部六省主要是从推进公共设施建设和财政补贴两方面推进新能源汽车的发展。例如:建设充电设施智能服务平台,在高速公路服务区、住宅小区等地安装充电设施,在合规的基础之上优先公共充电设施建设用地审批,为新能源汽车建立专门的停车位并在停车费用方面给予一定的优惠。对企业进行补贴,促进其进行技术创新;颁布销售补贴、免税等利好政策,引导消费者购买新能源汽车;并结合省情首先从政府等公共机构做起,对传统燃油公交车的价格补助做出了调整。

表5 中部六省热门主题词及相关度

由表6可知,2010年至2014年热门主题强度变化可以分析出中部六省新能源汽车政策的滞后性。主题5和主题20 在2016年强度都达到最大,主题10在2016年和2017年增加幅度也较大,是因为新能源汽车在政策引导下迅速发展的同时也受骗补和政策补贴落地问题的影响,国家在2016年出台十余项政策进行宏观调控,各省市也积极出台政策推动新能源汽车稳健发展。然而2019年3月新能源汽车补贴标准大幅调整,地方补贴退出,主题20的强度在2019年降低到0.033 272。毋庸置疑,财政补贴的退坡会导致购置成本增加,然而国家政策的引导是为了促进技术的发展。

表6 中部六省热门主题年份变化表

4 结论与启示

4.1 结论

本文基于LDA主题挖掘模型,对新能源汽车政策文本进行量化分析,得到高频词汇、主题强度以及年度变化趋势。主要得到以下结论:

1)国家层级和中部六省层级的政策中公共基础设施建设主体强度都较高,说明两个层级都认为基础设施的建设与完善是新能源汽车发展的必要条件。只有基础设施的建设与新能源汽车发展“两条腿走路”才会走得更稳健、长远。

2)国家层级与中部六省层级相比而言,国家层级在政策制定时不仅注重新能源汽车的发展,同时积极落实绿色发展理念,而中部六省层级更重视基础保障等具体措施对于新能源汽车发展的推动作用,大力建设充电桩、停车场的基础设施;生产过程的企业技术补贴到销售过程的客户购买补贴;从基础设施建设和财政补贴方面推动新能源汽车发展。

3)总体而言,政策特点与新能源汽车产业政策的要求基本一致,政策体系较为完善,但是层级间政策存在互动性不足、忽视传导渗透作用等问题。如中部六省的蓄电池回收强度较低,与国家主体之间存在差异,可能导致执行效果不理想。

4.2 启示

通过对国家和中部六省两个层面的政策文本进行量化分析,总结本次主题挖掘的成果,对新能源汽车的未来发展提出以下几点启示:

1)重视新能源汽车产业政策的系统性,加强层级间的沟通能力。一是政策制定时充分研究产业价值链的系统发展,要统筹新能源汽车的研发、生产、购置、使用及回收等环节的系统性政策,而不是针对某一环节的政策。二是要根据地区发展的实际情况,因地制宜地制定产业政策,层级间积极沟通,根据政策实施效果不断进行反馈调整,保证政策有效执行。

2)尊重市场规律,实现“市场+政策”双轮驱动。一是加强政策意见收集,在制定、出台政策前要广泛调研,征求各部门、企业、用户的意见,确保政策执行实施过程的有效性。例如补贴退坡和免征购置税等政策渐变式退出,可以促进技术进步和创新发展,释放市场的竞争力。二是发挥市场的主体地位,鼓励企业创新商业模式,拓宽营销渠道,如发展“融资租赁”、“分时租赁”、“汽车+”等新业态。

3)协调地方政策实施,夯实层级间协同基础。一是各地方要有合作共赢的心态,发挥区位优势,携手推动中部地区新能源汽车产业的发展。中部六省的位置邻近,技术具有外溢性,所以各省可以在蓄电池回收技术、充电设施地址规划等领域加强合作。二是地方产业政策在实施过程加强互动,能够减少上下层级间的协同难度,国家和各省市之间协同推进新能源汽车的发展,能更快提升新能源汽车的竞争力,实现从“汽车大国”到“汽车强国”的飞跃。

猜你喜欢

六省层级文档
浅谈Matlab与Word文档的应用接口
科室层级护理质量控制网的实施与探讨
山西25款产品荣获“中部六省名牌农产品”称号
有人一声不吭向你扔了个文档
军工企业不同层级知识管理研究实践
基于军事力量层级划分的军力对比评估
职务职级并行后,科员可以努力到哪个层级
我的“六省”颐养法
西迁赞歌·东情路——东北地区西迁民族美术作品北方六省巡展作品选登
Word文档 高效分合有高招