基于经济普查大数据的上海“三新”经济发展态势研究
2017-01-10杭敬苑立波张志远
杭敬、苑立波、张志远
(上海市统计局,上海 200003)
研究探索
基于经济普查大数据的上海“三新”经济发展态势研究
杭敬、苑立波、张志远
(上海市统计局,上海 200003)
本文利用上海第三次经济普查所形成的较为完备的调查数据库,对上海“三新”经济的总量规模、影响因素及发展趋势做了试算和研究分析,为研究“三新”经济发展态势进行了探索性尝试。结果显示,上海法人单位中具有“三新”经济特征的企业比例为23.3%,从业人员占21.6%。经测算,“三新”经济增加值占全市GDP的比重为21.8%,呈现出向现代服务业、向中心城区、向非公经济聚集的主要特征。
“三新”经济;文本挖掘;增加值;交叉验证
“三新”经济是指新产业、新业态与新商业模式等新兴的经济活动类型,加快发展“三新”经济是中国经济步入“新常态”、应对“三期叠加”的严峻挑战,实现经济发展方式转型和经济增长动力转换的重要途径。然而由于现行政府统计方法制度的局限和“三新”经济统计制度尚在探索建立阶段,在常规统计成果基础上反映“三新”经济存在较大困难。因此,探索利用现有统计数据资料和大数据方法对“三新”经济加以研究分析具有现实的紧迫性和必要性。
本文立足于经济普查所积累的较为全面的数据资料,运用大数据手段探索“三新”经济统计数据的挖掘和分析,测算上海“三新”经济增加值总量规模及影响因素,为研究“三新”经济探索科学可行的方法和途径。
一、文本挖掘“三新”经济的可行性
(一)“三新”经济界定的难点
1.统计对象界定模糊。“三新”经济在一、二、三产中跨界共生、渗透融和,现行国民经济行业分类中不能明确找到它们所属的门类。对企业来说,经营活动的多元化使得财务数据仅能报送到主营业务所在行业分类,掩盖了其对“三新”经济的贡献;对政府统计来说,原有的行业分类无法及时更新以反映新经济的快速发展,采用在原有行业分类基础上的系数调整也存在估计有偏和缺乏依据的现象。
2.统计内容不统一。“三新”统计内容在地区间和部门间不存在统一的制度标准。各地区和各部门对统计对象、统计表式、统计指标和统计口径的界定并不统一,数出多门,数据不可比,造成“三新”经济数据不统一、不规范。
3.自上而下的制度设计滞后于新经济发展。国家统计局于2016年4月发布了《新产业、新业态、新商业模式专项统计报表制度》(以下简称“三新”统计制度)。制度对“三新”经济的定义、特征进行了明确,通过20张综合报表和17张基层报表反映提质增效转型升级、工业战略性新兴产业、新产品、新服务、高技术产业及新技术、科技企业孵化器、四众(众创、众包、众扶、众筹)、电子商务、互联网金融、城市商业综合体和开发园区等11个“三新”重点领域。这对于获得统一的“三新”经济统计数据具有重要作用。
然而,实际操作中,统计局通过分专业自行认定“三新”企业并获取统计数据,对于统计部门自身和被调查企业都存在困难。
统计部门面临的主要困难在于:(1)认定企业困难。尽管已有“三新”统计制度可以参考,但摸清所有企业是否具有相应活动或产品仍然存在困难。(2)获得“三新”业务活动的比例困难。企业普遍存在跨行业经营的现象,界定其“三新”活动所占比例更会增加认定工作的复杂性。(3)“三新”活动变化节奏过快。“三新”企业跟随市场做出经营活动调整的节奏远远快于传统产业,增加了企业认定的难度和获取数据的及时性。
企业面临的主要困难在于:分离“三新”业务活动将增加企业负担。企业面临一套新的统计制度,不仅增加了企业负担,而且易与现行其他数据口径混淆。尤其对于传统行业尝试“三新”业务活动的企业,填报积极性不高。
解决好“三新”经济统计的问题,亟需新的研究角度和方法,重点解决企业的界定问题,减轻数据供需双方的负担,提高统计效率和质量。
(二)文本挖掘界定“三新”经济的优势和可行性
在国家统计局制定的“三新”统计制度(2016)的基础上,本文认为企业家对本企业的业务特征最具发言权,国家统计局可以将“三新”经济业务特征的描述交给企业家,即规范调查单位基本情况表中“主营业务活动/产品”的描述与填报,国家统计局利用文本挖掘的方式选择具有“三新”特征的企业,通过“自下而上”的方式完成对“三新”企业的界定、跟踪和统计。传统认定方法与文本挖掘认定方法的比较见图1。
图1 “三新”经济的传统认定方法与文本挖掘认定方法比较
国家统计局制定的“三新”统计制度(2016)中提供了覆盖11个“三新”重点领域的统计报表,可以从中提取和扩充“三新”经济的业务特征关键词。2013年的全国第三次经济普查提供了第二、三产业全面的企业基层数据,其中基本情况表中对企业“主要业务活动/产品”的描述具有三项,其内容主要是短句或短语。这两部分文本集合为进行文本挖掘、界定“三新”企业提供了必要的数据源。
二、基于文本挖掘的“三新”单位的界定
(一)界定“三新”单位的步骤
1.统计部门制定反映“三新”业务活动特征的词典(dictionary)。
2.获得单位填报的“主要业务活动(或主要产品)”文本数据:该文本通常包括三部分短句或短语(根据需要可以在今后的制度中要求单位提供三种主要业务活动所占的比重)。
3.对“主要业务活动(或主要产品)”的文本按照“三新”业务活动词典进行中文分词处理。
4.遍历每家单位的分词结果是否包含“三新”业务活动特征,包含的则被认定为“三新”单位。
本文以国家统计局《新产业、新业态、新商业模式专项统计报表制度(2016)》为基础,提取并扩充为包含197个关键词的文本集合作为“三新”经济词典(限于篇幅,此处不详细列举,备索);以上海市2013年第三次经济普查数据库的法人单位基本情况表(101表和611表,合计499798家企业)为数据源,从基本情况表中取得单位“主要业务活动(或主要产品)”文本集合,作为文本挖掘对象。
(二)文本挖掘工具介绍
本文使用Python3.5软件下的jieba 0.38分词组件对经济普查调查单位的“主要业务活动(或主要产品)”文本集合进行分词。
1.分词算法
该组件基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。
2.分词模式
应对不同的分词需要,该组件提供了精确模式、全模式和搜索引擎模式三种分词模式。其中第一种尝试将句子最精确地切开,适合本文的文本分析。
3.自定义“三新”经济特征词典
虽然jieba有新词识别能力,但是自行添加新词可以保证更高的正确率。由于本文的“三新”经济特征词典大部分为新登录词,本文使用“添加自定义词典”的功能指定该词典,以便能够对主要业务活动进行精确拆分。
词典格式为一个词占一行。每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。程序打开的文件为UTF-8编码。
三、上海“三新”经济发展的基本特点与增加值测算结果
(一)上海“三新”经济发展基本特点
文本挖掘及结果数据清洗后的结果显示,上海“三新”单位共计116526家,占全部法人单位数499798家的23.3%;期末从业人员数为2661809人,占全部法人单位从业人员数的21.6%;资产总计为79141169.55亿元,占全部法人单位资产总计的19.8%。“三新”经济发展的基本特点如下:
1.“三新”经济与传统产业全面融合发展的态势开始显现
全市“三新”单位覆盖了81个行业大类、818个行业小类,分别占全市91个行业门类、1016个行业小类的89%和80.5%,基本涵盖了除公共管理、社会保障和社会组织等非市场化行业之外的全部行业类别。农业、制造业等传统产业中越来越多企业涉足“三新”业务,传统企业逐步向信息化、服务型、科技型和管理型企业转变,“三新”经济与传统产业融合发展的态势开始显现。
2.“三新”经济主要集中于生产性服务业和新兴制造业
由上海“三新”经济的单位数及从业人员的行业分布可以看出,上海“三新”经济呈现行业集中发展的特点,租赁和商务服务业、批发和零售业、科学研究和技术服务业、信息传输、软件和信息技术服务业、制造业等五大行业三新单位数合计和从业人员数合计分别占全市“三新”经济的81.8%和76.6%,全市“三新”经济行业主要集中于生产性服务业和新兴制造业。其中,租赁和商务服务业占比最高,单位数和从业人员占比分别达到37.9%和26.2%;制造业单位数占比虽然仅有6.8%,但从业人员占比达到20.6%。
3.“三新”经济主要集聚于中心城区
从上海“三新”经济单位数和从业人员数区域分布看,上海“三新”经济区域分布总体较为均匀。其中,浦东新区由于区域面积较大,“三新”单位数和从业人员数较多。但从按所在地和注册地分别统计的“三新”经济区域分布情况看,上海“三新”经济呈现出从郊区向中心城区集聚发展的态势。黄浦、徐汇、长宁等中心城区按所在地统计的单位数和从业人员数占比分别高于按注册地统计的单位数和从业人员数占比,而崇明、奉贤、青浦等郊区按所在地统计的单位数和从业人员数占比则低于按注册地统计的数据,表明“三新”经济的实际生产经营活动主要偏向于向人才、资本和技术较为集中的中心城区集聚。
4.“三新”经济在非公经济中更为活跃
上海“三新”经济单位中,企业单位占比为97.1%,非企业单位仅占2.9%。从“三新”企业的控股情况看,私人控股单位数和从业人员数分别占“三新”企业的83.8%和47.8%,表明上海“三新”经济主要集中于非公经济中。
(二)上海“三新”经济增加值测算方法
第三次经济普查数据库法人表所涵盖的指标较少,直接采用经普法人单位财务报表资料无法直接进行生产法、收入法或者支出法的增加值核算。因此,本文利用“三新”经济行业主要经济指标以及行业增加值率来推算“三新”经济增加值。
1.按照第三次经济普查四上单位财务表和其他相关资料分别测算国民经济各行业四上单位增加值率,即行业增加值占总产出的比重,作为“三新”经济行业增加值测算的基本依据。
2.分行业汇总“三新”经济主要经济指标,包括营业收入、资产总计等指标。
3.根据“三新”经济营业收入、资产总计等经济指标,按照相同国民经济行业四上单位营业收入、资产总计指标与行业总产出的关系,推算各行业“三新”经济总产出。
4.根据各行业“三新”经济总产出和相同行业全部四上单位的增加值率推算三新行业增加值,所有行业增加值加总得到全市“三新”经济增加值。
(三)上海“三新”经济产业结构特征
测算结果显示(限于篇幅,此处删除“上海‘三新’经济增加值测算结果表(2013年)”),2013年上海“三新”经济增加值总量为4759.19亿元,占全市GDP的比重为21.8%。
从三次产业构成看,上海“三新”经济在三次产业中增加值占比结构为0.2∶20.3∶79.5,其中第三产业占比达到79.5%,比全市GDP第三产业占比高出16.3个百分点,表明目前上海“三新”经济发展主要集聚于服务业。
从门类行业占比情况看,上海“三新”经济增加值排名前五位的行业依次是制造业、租赁和商务服务业、信息传输、软件和信息技术服务业、金融业、批发和零售业,占“三新”经济增加值比重依次为18.9%、16.7%、16.3%、12.7%和10.2%,合计占“三新”经济增加值的74.8%,体现出先进制造业与生产性服务业在“三新”经济中的重要地位。
从“三新”经济行业增加值占全行业增加值的比重看,“三新”经济增加值占行业增加值比重超过50%的行业有四个,分别为信息传输、软件和信息技术服务业、文化、体育和娱乐业、租赁和商务服务业、科学研究和技术服务业,“三新”经济增加值占行业增加值的比重依次为71.4%、69.8%、65.5%和62.5%,表明“三新”经济在上海信息、文化、管理和科技领域发展迅速。
四、上海“三新”经济增加值的实证分析
为研究“三新”经济对宏观经济的贡献及影响,本文利用“三新”经济增加值的测算结果建立回归模型,并利用模型进行预测。
模型所使用的数据是按照行业大类汇总后的经济普查数据,因变量为52个行业大类“三新”经济增加值。解释变量分别取各行业大类增加值、研发支出、从业人员、资产总计等指标。上述各变量分别记为VA,BVA,RD,employ,asset,为保持模型使用数据的平稳性,预先对数据进行对数化处理,变量名仍然沿用上述记法。
(一)“三新”经济增加值的多元线性回归模型
参数估计及检验:利用R 3.3软件的lm()和step ()函数,容易得到对于“三新”经济增加值的线性模型:
图2 预测“三新”增加值VA的回归树
VA=-8.96+0.22 BVA+0.47 employ+0.28 asset+e
各系数在0.05的显著性水平下均显著不为零,方程调整R2为0.84,比较理想。
多重共线性检验:利用kappa()函数对各解释变量的多重共线性进行检验,检验统计量取值为32.96,远小于临界值1000,表明各自变量之间不存在多重共线性。
模型解释:由于研发支出R&D的行业大类数据难以取得,使得模型选择过程中该变量被剔除,如果能够进一步获得详细的研发支出数据,对研究“三新”经济增加值应有很大帮助。
从估计得到的模型可以得出如下结论:行业的“三新”经济增加值取决于该行业的增加值、从业人员数量和资产规模,其弹性系数分别为0.22、0.47和0.28。
(二)“三新”经济增加值的回归树模型
借助R 3.3软件的rpart软件包(Therneau and Atkinson,2010),实现各变量对“三新”经济增加值的回归树构建,原始数据为52个行业大类,被回归树模型分剪为3个节点(见图2)。
(三)模型的评价和选择
模型的评价通过将目标变量的预测值与实际值进行比较得到,并从中得到平均误差的度量,常见的方法包括平均绝对误差(MAE)、均方误差(MSE)和平均绝对误差(NMSE)。
上述两个模型的主要评价结果见表1。
表1 两类模型的评价结果
从表1及两类模型预测值与实际值的散点图中均可以得出,多元线性回归模型的预测误差相对较小,预测效果比回归树模型好。
(四)两类模型的交叉验证
为获得两类模型预测的稳定性,本文对多元线性回归模型和三个回归树模型进行了交叉验证(Cross-validation)。结果表明,多元线性回归模型的预测性能较好,预测效果更稳定,因此2013年“三新”经济增加值的拟合选用本文的多元线性回归模型较为适合。
五、关于完善“三新”统计工作的若干建议
1.建立“三新”经济内涵与外延界定的动态更新机制,及时科学地反映经济发展中涌现出的新产业、新业态和新模式
“三新”经济中的“新”是一个相对的概念,在对“三新”经济的内涵进行科学归纳和总结的基础上,更需要对其外延的发展变化进行及时的更新和完善。另一方面,经济运行中不断涌现的新产业、新业态和新模式未必都可以纳入“三新”经济的范畴,还需对其进行科学的分析和甄别。我们认为,只有那些符合经济发展规律,能够有效提升行业劳动生产率乃至出现颠覆性、革命性创新,能够经得起市场经济考验的新产业、新业态和新模式方能纳入“三新”经济的范畴。
2.建立以经济活动为对象的统计调查内容,进一步补充完善以法人单位为基础对象的统计调查模式
伴随着技术与制度的创新,经济活动的复杂性与日俱增,企业经营的业务内容和业务手段均呈现出明显的多元化特征,这对于现行统计调查制度中以法人单位为基础调查对象、以企业主营业务确定所属行业的传统方式提出了新的挑战。特别是从国家统计局制订的“三新”经济统计制度可以看出,“三新”所指的是某些特定的具有一定创新性的产品或业务模式,比如某企业销售同样的商品或金融产品,分为网络销售和店面销售两种,其网络销售活动可以视为“三新”经济活动,而店面销售部分则不能纳入“三新”统计范畴,但在企业填写统计报表时作为单一的法人单位上报数据,并不区分网络销售和店面销售的比重,从而无法掌握其“三新”经济活动的统计数据。再比如某工业企业的经营活动中,既有传统的制造业部分,也有部分属于“三新”的服务业活动,然而由于行业划分的限制,其“三新”部分的业务活动也被统一纳入工业报表中进行上报,无法单独区分加以反映。以上两例表明,传统的以法人单位为基础对象的统计调查模式,已无法适应以特定产品或经济活动为基本元素的“三新”经济在统计上加以反映的要求。因此,从统计方法制度改革的角度出发,建议继续完善法人单位上报其主要经济活动内容(在经济普查年度填报副营经济活动内容)并简要拆分其收入比例,为进一步科学地测算和反映“三新”经济发展情况提供有效的量化依据。
3.建立规范统一的业务活动词典,为运用大数据手段开发统计资料奠定扎实工作基础
本文研究上海“三新”经济所依据的数据库是第三次经济普查所取得的资料,样本量超过49万家,是研究上海国民经济运行状态的重要基础性资料。本文为开展文本挖掘所设计的“三新”经济业务词典主要依据的是国家统计局制订的“三新”经济统计制度。然而在利用该词典对经普数据库进行文本挖掘过程中发现,由于企业在填报其主要业务活动中缺乏规范性,与词典中的关键词难以匹配,导致少量原本应纳入“三新”经济活动的内容没有挖掘出来,也使得文中所测算的“三新”经济总量规模存在一定程度的偏差。我们认为,上述系统性偏差可以通过建立规范统一的《业务活动词典》或在修订《国民经济行业分类》中对小类行业新增业务关键词等方法加以消除。在经济普查年度,组织调查对象填报业务活动内容时,应参照《业务活动词典》或业务关键词进行填写,从而为按照经济活动进行统计汇总提供便利条件,更可为运用大数据手段开发统计资料奠定扎实的工作基础。
(责任编辑:曹家乐)