大数据战略、知识管理能力与中国企业创新

2021-06-02

产经评论 2021年2期

一引言

随着新一代信息技术在经济社会各领域的深度融入，以及移动互联网技术的不断发展推动，社会信息化进程进入大数据时代，数据量呈现爆发式增长，数据资源已成为国家重要的战略资源和核心创新要素。据国际权威机构Statista调查和预测，2020年全球大数据市场的收入规模将达到560亿美元。我国在“十三五”规划建议中明确提出：“实施国家大数据战略，推进数据资源开放共享。”充分释放和利用海量数据资源的价值，总结提炼数据中蕴含的规律和经验，预测经济社会发展的趋势并提供决策辅助，将使社会经济发展发生重大变革，同时推动新一代信息技术与各行业的深度耦合和交叉创新，为国家发展带来战略性机遇(1)来源于国务院印发的《促进大数据发展行动纲要》(国发〔2015〕50号)。。

创新是知识经济的重要特征。大数据的研究和应用通过海量数据特征和关联关系的抽取，可以与不同产业相融合，挖掘和分析行业与领域内有价值的数据，获得用户行为信息，发现市场机会，提升信息技术水平，从而促进创新，驱动整体经济良性增长。鉴于大数据对创新和经济发展的潜在影响，美国、日本、欧盟等经济体都将大数据视作战略资源，并将大数据提升为国家战略。2014年，我国在政府工作报告中首次提出了“大数据战略”，接着在2015年和2016年分别发布了《国务院关于印发促进大数据发展行动纲要的通知》、《国务院关于印发“十三五”国家战略性新兴产业发展规划的通知》和《大数据产业发展规划(2016-2020年)》等文件，明确指出大数据是新一代信息技术产业的重要构成和基础，并提出要“形成若干创新能力突出的大数据骨干企业，培育一批专业化数据服务创新型中小企业，培育10家国际领先的大数据核心龙头企业和500家大数据应用及服务企业。形成比较完善的大数据产业链，建设10-15个大数据综合试验区，创建一批大数据产业集聚区，形成若干大数据新型工业化产业示范基地”。

政策效应是学术界的研究热点，例如“营改增”政策对产业结构、宏观经济(陈钊和王旸，2016)[1]及企业价值的影响(王桂军和曹平，2018)[2]，财政支出政策的社会经济效应(李娜等，2018)[3]，国家生态工业示范园政策对城市工业部门高质量发展的促进作用(周凤秀和温湖炜，2019)[4]，战略性新兴产业政策对企业创新的促进作用(邢会等，2019)[5]等。现有对我国大数据战略效应的研究较少，喻炜和王凤生(2016)[6]构建了由企业、消费者和政府组成的三阶段子博弈精炼纳什均衡模型分析大数据战略问题。此外还有对主要发达国家大数据政策的对比研究(张勇进和王璟璇，2014)[7]，以及对大数据政策的文本量化研究(周京艳等，2016)[8]。综上可见，鲜有针对大数据战略的定量分析，本文拟采用DID和机器学习方法，基于2013-2018年我国宏观经济数据和上市公司信息，审视大数据战略对中国企业创新产出的效应和影响机制，探讨大数据产业发展过程中的关键因素。

二研究假设

(一)大数据战略对企业创新产出的激励效应

2016年，国务院在《“十三五”国家战略性新兴产业发展规划》中指出：“未来5到10年是全球新一轮科技革命和产业变革从蓄势待发到群体迸发的关键时期，信息经济繁荣程度将是国家实力的重要标志，要实施网络强国战略，加快建设‘数字中国’，推动物联网、云计算和人工智能等技术向各行业全面融合渗透，构建万物互联、融合创新、智能协同、安全可控的新一代信息技术产业体系”。当前各国都将产业数字化创新作为经济发展的高度侧重点，互联网、人工智能与农业、传统制造业、服务业深度融合的“全产业链”竞争时代已经到来。2019年，全球互联网用户数量达到41亿，活跃社交媒体用户达到37.25亿,产业数字化在各国的数字经济中已占据主导地位。边缘计算、区块链、物联网云计算和大数据等创新技术不断涌现，推动产业高速迭代、创新模式和业态发展，并不断出现涌现式创新。

大数据对第一产业的创新推动作用主要体现在通过大数据的应用来降低现代农业发展过程中的试错成本，提高决策的准确性、时效性。精准农业不仅带来高产，更重要的是提高生产效率。《农业部关于推进农业农村大数据发展的实施意见》中指出：“农业农村大数据已成为现代农业新型资源要素，是提高农业生产精准化、智能化水平，推进农业资源利用方式转变的重要推手。大数据将在生产智能化、自然灾害预测月报、动植物病虫害监测预警、农业环境资源精准监测、农产品质量全程追溯、农产品产销信息平台等领域发挥巨大作用，形成新的产业增长机会”。大数据对第二产业的创新推动作用主要体现在工业互联网领域，《工业和信息化部关于工业大数据发展的指导意见》中明确提出了“贯彻落实国家大数据发展战略，促进工业数字化转型，激发工业数据资源要素潜力，加快工业大数据产业发展”的目标。大数据与第三产业的融合已产出众多创新成果，如电子商务、电子政务、网络带货、网约车等，各种基于大数据的电子服务创新开辟了大量细分市场，拉动了内需，不断促进经济发展。综上所述，提出假设H1。

假设H1：大数据战略正向影响企业的创新产出。

(二)知识管理能力在大数据战略和创新产出之间的中介效应

信息技术产业发展最重要的推动力是知识的学习和传播，对应着信息产业创新系统的重要功能是促进显性和隐性知识的学习以及有效扩散。大数据的本质是为了能更好地利用海量数据揭示出我们不知道的规律，解释和说明事物，判断事物间的联系和逻辑，最终形成知识，不断拓展知识领域，实现创新。近年国外研究者提出的“BD2K”概念，就是着眼于大数据与知识之间的联系和转换(Bourne et al.,2015[9]；Margolis et al.,2014[10])，并引申发展出大数据与知识工程(Hota et al.,2015)[11]、大数据与知识管理等多个研究领域(Baoan,2014)[12]。知识经济时代，知识和技术等无形资产已成为企业竞争优势的重要来源，是企业的战略资产(Lai和Lin,2012[13]；Stump et al.,2002[14])。创新技术推动了产品和服务开发，企业拥有的知识资源是其技术创新能否成功的关键影响因素，良好的知识管理能力已经成为企业的核心能力之一。知识管理融合了现代信息技术、知识经济理论和企业现代管理理念，是匹配于知识经济时代的管理思想与方法。Davenport et al.(1998)[15]将知识管理定义为收集、分配和有效使用知识资源的过程。Bhatt(2001)[16]认为知识管理是创建、验证、呈现、分发和应用知识的过程。McDermott 和 O’Connor(2002)[17]指出，企业可以通过持续改进或根本性创新来促进业务发展，这两种方法都是通过吸收组织内部的新知识和相关知识而开展的。郝亚美(2016)[18]认为知识管理的实施有助于提高研发型企业的核心竞争力，建立知识管理体系是研发型企业与传统企业的本质区别。魏江等(2004[19],2007[20])提出企业集群功能整合和知识整合是促进集群企业创新能力跃迁的必要条件，通过知识嵌入能推动企业形成创新网络从而获得竞争优势。大数据是云计算实施的基础，云计算为企业知识管理系统提供存储空间和高性能运算能力，公有云的建设将使得中小型企业获得和大型企业同样的知识管理系统能力。此外，大数据与可视化以及数据挖掘的结合，使得知识管理系统更加智能化，运行速度更快，知识的表现形式更加多元化，有利于知识在组织内部的高效传播，优化企业的知识结构和使用流程，促进创新产出。

2016年，为加快实施国家大数据战略，贯彻落实国务院《促进大数据发展行动纲要》，国家发展改革委员会连同工业与信息化部、中央网信办，批复同意贵州省、京津冀、珠江三角洲、上海市、河南省、重庆市、沈阳市、内蒙古八大区域开展国家大数据综合试验区建设，围绕不同定位，开展系统性、整体性、协同性大数据综合试验探索。设立国家大数据综合试验区是大数据战略中的一项重要举措，从大数据制度创新、公共数据开放共享、大数据创新应用、大数据产业聚集、大数据要素流通、数据中心整合利用、大数据国际交流合作等方面尝试推动我国大数据创新发展。自设立以来，综合试验区获得融资的大数据创投项目近千个，新申请大数据类技术发明专利超过8000项，并对上下游产业、制造业和服务业形成了强大的推动力。设立大数据综合试验区有助于提高区域知识集聚度和隐性知识的学习水平，从而增强企业的知识管理能力，提升创新产出。因此，提出假设H2。

假设H2：知识管理能力在大数据战略和中国企业创新产出之间起正向中介作用。

(三)数字化成本在大数据战略和创新产出之间的中介效应

大数据的广泛深入应用，使人类社会逐渐走向数据经济时代，提升数据存储、运营和应用能力成为企业创新发展和获得竞争优势的重要途径，当前主要互联网企业的数据成本甚至达到20%-40%。另一方面，大数据中心建设、创新应用等措施所带来的新技术转型升级压力也可能导致企业数字化成本明显提升，据统计，部分知识密集型企业的数字化成本已占总成本的30%-40%，主要支出为数据库的建设和维护费用、机房维护费用、电费支出等，成本的增长使企业创新意愿受到影响，从而可能影响创新产出，因此进一步提出假设H3。

假设H3：企业的数字化成本在大数据战略和中国企业创新产出之间起正向中介作用。

图1 研究假设

三研究方法

(一)双重差分法(DID)

双重差分法是政策评估的常用方法，通过监测实验组和控制组间差距的变化情况来消除不随时间变化的不可观测因素。应用DID方法必须满足两个关键条件：一是必须存在一个具有试点性质的政策冲击；二是必须具有一个相应的至少两年(政策实施前后各一年)的面板数据集。刘瑞明和赵仁杰(2015)[21]用双重差分法验证了国家高新区政策对地区经济发展的促进效应；曹平和王桂军(2018)[22]运用DID、PSM-DID和DDD方法，从创新数量和创新质量双视角研究了“营改增”对服务业企业技术创新意愿的影响。参考这些研究的方法，把2016年国家大数据综合试验区政策的制定视为一次自然实验，采用DID方法评估前后的政策效应变化。具体模型设计如下：

Innovit=α0+α1Treati+α2Policyit+α3Treati×Policyit+α4Xit+εi, t

(1)

其中Innovit表示第i个企业在第t年的创新水平，虚拟变量Treati是对样本企业的分组，Treati=1代表位于国家大数据综合试验区的上市企业，即实验组；Treati=0代表位于国家大数据综合试验区外其它地区的上市企业，即控制组；Policyit表示国家大数据综合试验区政策的影响时间，政策提出当年及以后年份取值为1(2016-2018年)，之前的年份取值为0(2013-2015年)。Treatit×Policyit是企业分组与时间分组的交互项。

(二)机器学习方法

Kleinberg et al.(2015)[23]认为，政策问题是一个预测问题，政策效应评估就是依据现有数据预测一个政策能达到的效果，并与实际达到的效果对比。从这个角度看，政策可以被视为一种风险尝试，一种药物。Varian(2014)[24]通过整合包括训练集、验证范例、修正机器学习中过拟合问题等在内的各类特征来改进计量经济学模型，实现大数据方法与计量经济学的融合。其研究表明恰当的机器学习模型预测精度可提高50%以上，达到较好的预测效果，并实现一定程度上的因果推断。机器学习在政策效应和因果推断已有不少应用研究成果，例如运用LASSO方法(高华川和白仲林，2019)[25]对政策进行评估，以及随机森林方法(刘卫东等，2019)[26]的应用。Athey(2017)[27]认为机器学习在因果推断和政策评估中具有很强的应用前景，应当更多将因果树和随机森林等机器学习技术与现有的计量经济理论相结合。Chernozhukov et al.(2017)[28]认为，机器学习的理论要求相对于传统统计方法较弱，使用随机森林、LASSO、Ridge、增强树等各种现代的机器学习方法，以及这些方法的混合来估计高维回归中的参数具有可行性。Tiffin(2019)[29]使用传统计量经济学方法和机器学习方法估计金融危机对经济增长的负面效应，得到相同的结论，并认为机器学习方法在交互效应、非线性效应、异质性效应的研究方面更具优势。

本文参考已有研究的做法，结合研究目标，选择LASSO方法(特征缩减方法)、因果森林方法(树型模型方法)和卷积神经网络三种机器学习方法进行对比研究，各种方法的解释性(因果性)依次递减，但是预测性递增。

1.效应评估的机器学习方法

控制组的效应为：

实验组的平均效应为：

(2)

(3)

(4)

此时政策干预的效应估计为：

平均效应估计为：

(5)

图2 机器学习的效应评估思路

将样本按照“训练集-验证集-测试集”进行区分，其中训练集用于估计模型，验证集(又称为开发/保持集)用于监控样本外预测误差，测试集用于评估所选模型的样本外预测误差。

2.LASSO方法

正则化是避免由于变量和特征过多导致过拟合的有效手段，线性回归的L1正则化通常被称为LASSO回归，通过构造一个惩罚函数得到一个较为精炼的模型，保留了子集收缩的优点，是一种处理具有复共线性数据的有偏估计。LASSO方法的步骤为完成每次机器学习训练后计算损失Loss值，加入惩罚函数后采用最小角回归法计算损失Loss的极小值，不断与因变量进行拟合，直至收敛至预设阈值为止。构造惩罚函数的方式如下：

首先把式(2)的实验组平均效应改写为线性函数形式：

(6)

3.因果森林方法

在机器学习领域，回归树是利用树形结构递归地将数据划分为不同的子样本，并将每个子样本下yi的平均值作为最终预测值的一种统计方法。本文参考Athey和Imbens(2015)[30]的因果树方法，把回归树方法中重点关注的预测值均方误差改进为处理效应的均方误差。首先在训练集样本中随机选取一部分，用于划分空间即构造树的结构，其他样本被用来估计处理效应，估计结果就是每一个划分空间中的处理效应及其相应的置信空间。因果树的构造如下：

(7)

其中K表示树中的叶子个数，代表模型的复杂度，α.K代表惩罚项，可以加速分裂和收敛。

基于生成的因果树，有条件的平均效应按以下公式计算：

(8)

(9)

4.CNN卷积神经网络

区别于传统的BP神经网络，卷积神经网络是基于神经元局部感受野的概念而设计的，通过针对某个局部的样本信息进行数据挖掘和分析，应用卷积(Convolution)操作实现特征的抽取，在纵向上形成新的“视界”，将一段时间窗口周期内的企业相关数据作为一个整体来衡量，通过不同的卷积核和池化进行典型化抽取，在保持数据本身存在的关联性的同时加快迭代速度并提升运算效率，以期获得更深层次的结果。

图3 非线性关系下的条件平均效应评估

四数据和变量

专利内化了创新的主要特征“新颖性”，我国的专利分为发明、实用新型和外观设计三类，发明专利是企业技术竞争优势的重要构成，因此选择专利申请数量的自然对数和发明专利申请数量的自然对数作为创新代理变量。

Gold et al.(2011)[31]认为，知识管理包含基础建设和管理流程两部分，管理流程指获取、转化、应用和保护知识方面的能力。企业研发投入与知识管理基础建设密切相关，而合格的知识型员工才能执行知识管理流程并承载知识，知识管理的核心是知识型员工的管理，企业研发人员数量可以作为知识型员工的代表变量。本文选择知识管理基础投入(研发资金投入)、知识管理流程投入(管理投入)、知识员工比例(研发人员数量)作为研究变量。Tanriverdi(2005)[32]认为，企业要更快地应对高速变化的市场竞争，必须具备知识管理能力，包括技术知识管理能力、客户知识管理能力、产品知识管理能力和运作知识管理能力。市场是企业知识管理能力的最佳衡量标准，企业学习和管理知识是为了快速地进行知识的共享与应用，以加快产品更新速度，缩短产品研发周期并降低成本，最终达到快速占领市场的目标。因此，本文进一步加入知识应用投入(市场投入)、知识累积度(企业年限)作为知识管理能力的衡量指标。

其他的控制变量包含创新环境和企业自身条件两方面。参考曹平和王桂军(2018)[22]、曹平和陆松(2020)[33]等的做法，同时考虑数据获取的难易度，选取区域经济实力(GDP)、区域人员能力(信息技术产业从业人员数量)、用户参与(大专以上学历人员数量)、政府支持(政府补贴)、区域产学研协作能力(高校和科研院所数量)、金融环境(外资比例)、盈利能力(营业利润率)、成长能力(所有者权益比例)、营运能力(资产周转率)、资本结构(资产负债率)、现金流量(总资产现金回收率)和企业绩效(托宾Q值)作为控制变量。因为8个国家大数据综合试验区包括区域、省份和城市，因此在数据选择时进行了辐射范围的推论。首先认定京津冀大数据综合试验区直接辐射京津冀地区的企业，珠江三角洲大数据综合试验区直接辐射广东省的企业，沈阳市大数据综合试验区直接辐射辽宁省企业，其余贵州、上海、河南、重庆和内蒙古均直接辐射本省(直辖市)企业。不在八大试验区范围内的省份为间接辐射省份。基于这个推论，创新环境指标均选取企业所在省(直辖市)的相关指标。

变量设定如表1所示。

表1 变量设定

本文以国家大数据综合试验区政策实施前后3年为时间窗口，选取2013-2018年数据进行研究，2016年为效应作用点，2013-2015年为政策前时间面板，2016-2018年为政策生效后观察面板。宏观数据从《中国工业统计年鉴》、《中国电子信息产业统计年鉴》和《中国信息产业年鉴》中获取，专利相关数据通过国家知识产权局网站进行手工收集，企业层面数据则来自于国泰安和万德数据库的上市公司数据以及部分上市公司的年报，在剔除金融、保险、ST、*ST及主变量存在严重缺失的公司样本后，最后得到1107家上市公司的6642条观测数据。为了消除极端值的影响，对主要连续型变量进行了1%的Winsorize缩尾处理。主要变量描述性统计特征分析如表2所示，样本上市公司专利申请数量(对数)和发明专利申请数量(对数)平均值分别为2.756和1.854，中位数分别为2.113和1.737，最小值均为0，最大值分别为8.341和6.128。

表2 主要变量的统计特征

五实证结果及分析

(一)政策效应分析

表3为DID估计结果，列(1)在加入控制变量的同时对年份固定效应和行业固定效应进行了控制，结果显示交互项Treat×Policy的回归系数为0.625且在1%的水平上显著。列(2)利用固定效应模型(FE)对企业固定效应进行了控制，可以看到Treat×Policy的回归系数为0.422，对比列(1)有所下降，但仍在5%的水平上显著。因此不能从统计上拒绝假设H1。

表3 DID检验结果

采用双重差分方法进行政策效应评估需要满足外生性要求，即政策对样本的选择应该是随机的，具体到大数据综合试验区政策上，很显然被选中的8个省市不是随机的，但是样本上市公司在注册时并没有预见到该政策，因此从企业层面上看这个政策是随机的。而大数据综合试验区对被影响产业的选择是非随机的，很明显信息技术产业和服务业将会受到更大和更直接的影响，如果各产业在实验组和控制组之间分布不均匀，此时政策变量将存在一定的内生性,需要采用工具变量法进行处理。

受空调制冷、UPS不间断电源和超大用电负荷等因素的影响，大数据中心的能耗非常巨大。根据统计，2017年，中国数据中心耗电量为1221.5亿千瓦时。数据中心的巨大能耗受到重点关注。2019年，工信部、国家机关事务管理局和国家能源局出台《关于加强绿色数据中心建设的指导意见》，要求到2022年，“数据中心平均能耗基本达到国际先进水平，新建大型、超大型数据中心的电能使用效率值达到1.4以下”。很明显在选定大数据综合试验区时，考虑了向煤炭基地及其他用电资源富余地区的倾斜，因此可以考虑将自然禀赋作为工具变量。参考邓明和魏后凯(2016)[34]的做法，加总五大能源工业的工业产值，然后除以各省总人数，得到人均能源工业总产值，作为自然禀赋的度量标准，相关数据从各年度的《中国工业经济统计年鉴》中获取，计算2013-2015年窗口期内的各省数据并进行平均。可以认为，自然禀赋与现代企业创新之间没有直接相关的联系，满足工具变量法的“排他性约束”。

设置工具变量IV，IV=1表示窗口期内自然禀赋指标高于平均值的省、市和自治区，IV=0表示其他省、市和自治区，利用两阶段最小二乘法(2SLS)进行估计。可以看到一阶段回归中IV和IV×Policy的系数均在1%水平上显著，且Kleibergen-Paap Wald统计量和Kleibergen-Paap LM统计量所对应的p值均远小于1%，说明工具变量具备较好的识别能力。二阶段回归的结果显示，Treat×Policy的系数值为正，且在5%的水平上显著，说明在缓解了政策实施可能存在的内生性问题之后结论保持不变。

表4 工具变量法解决内生性问题

表5为机器学习方法的估计结果。具体做法是先从控制组样本中抽取训练集和验证集，进行模型训练，并用实验组在政策实施之前的样本作为测试集进行误差调整，运用构造好的模型进行实验组的反事实推断，然后评估在给定限制条件下政策的平均效应。将数据样本通过设计的模型进行训练和测试，初始学习率按照Smith(2015)[35]的方法设置为0.001。采用不同的算法改变学习率，选择不同的测试集与训练集比例，分别统计迭代到500次和迭代1000次以后的Loss值。结果显示在初始学习率为0.01，随机指定测试集和测试集(按70%和30%的比例)的情况下收敛较好，1000次迭代的Loss值低于0.01。同时设计了一个4层BP神经网络以对比模型的拟合优度。其中输入层设置16个节点；输出层5个节点；隐藏层2层，按照经验公式估算，第一层设置14个节点，第二层设置7个节点。采用同样的梯度下降方法和激励函数，迭代次数设置为1000次，运行结果显示，本文采用的机器学习方法在收敛时间和拟合优度上均优于BP神经网络。

从表5结果可以看到，LASSO、因果树(CT)和卷积神经网络(CNN)三种方法的RMSE均小于0.1，LASSO方法和因果树的RMSE小于0.05，模型具有较好的预测性能。根据模型进行反事实推断计算出来的条件平均效应CATE均为正且大于0.3，参考Athey和Imbens(2016)[30]的研究结论，不能否定假设H1。

表5 机器学习的政策效应评估结果

(二)中介效应

为了研究知识管理和数字化成本在大数据战略和企业创新之间的作用，进一步进行中介效应检验。如上文所述，知识管理(KM)由知识管理基础投入(研发资金投入)、知识管理流程投入(管理投入)、知识员工比例(研发人员数量)、知识应用投入(市场投入)、知识累积度(企业年龄)五个子项构成，采用专家评分法(Delphi方法)和问卷调查法进行综合评分并制定权值后(AHP方法)即可计算，得到企业的知识管理能力水平。数字化成本通常包括研发成本、生产成本、保存成本以及维护和支持成本，其中后面几项在统计数据和企业年报中均没有明确的项目对应，而研发成本占据数字化成本较大比例，因此本文先将研发成本和年度变量作为被解释变量与解释变量进行OLS回归，估计出随机扰动项作为数字化非预期成本，研发成本与数字化非预期成本分别除以企业年度总成本后相加，得到企业年度数字化成本支出水平，所有的数据进行z-score标准化处理。

在式(1)的基础上构建中介效应检验模型如下：

Innov(i,t)=α0+α1Treati+α2Policyit+α3Treati×Policyit+α4Xit+μ1

(10)

KM(i,t)=β0+β1Treati+β2Policyit+β3Treati×Policyit+β4Xit+μ2

(11)

DC(i,t)=β0+β1Treati+β2Policyit+β3Treati×Policyit+β4Xit+μ2

(12)

Innov(i,t)=γ0+γ1Treati+γ2Policyit+γ3Treati×Policyit+γ4KMit+γ5Xit+μ3

(13)

Innov(i,t)=γ0+γ1Treati+γ2Policyit+γ3Treati×Policyit+γ4DCit+γ5Xit+μ3

(14)

其中KM(i,t)代表知识管理中介变量，DC(i,t)为数字化成本中介变量，μ为随机扰动项。

中介效应采用Sobel检验方法，由β3×γ4系数衡量，从表6结果可以看到，列(1)Treat×Policy的系数为正，且在1%的水平上显著，说明大数据战略确实促进了企业的知识管理能力，列(2)中知识管理能力(KM)的系数为0.335，且在5%的水平上显著，因此无需再进行Sobel检验。计算β3×γ4=0.071，表示大数据战略通过知识管理能力对企业创新的间接影响效应占总效应(0.422)的16.83%，即知识管理能力有一定的中介效应。一方面，说明大数据战略还有其他路径推动企业创新；另一方面，也说明当前企业的数字化转型还处于初级阶段，大数据战略推动知识管理能力发展并最终促进企业创新的效果还有提升空间。对数字化成本的检验结果显示，β3为负且不显著，γ4不显著，说明来自数字化成本的中介效应不显著。

表6 DID中介效应检验结果

利用Matlab中的灵敏度分析(Sensitivity Analysis)模块进行分析，分别设置4个模型，其中模型1和模型2分别衡量Treat×Policy对知识管理能力KM和数字化成本DC的输出敏感度，模型3和模型4衡量Treat×Policy分别和知识管理能力KM以及数字化成本DC联合输入对企业创新的输出敏感度，结果显示知识管理能力KM在模型1中的敏感度为0.195，在模型3中的敏感度为0.359，对于企业创新的输出具有一定影响力。而数字化成本在模型2和模型4中的检验结果均显示其对企业创新输出的敏感度较低。

表7 机器学习中介效应检验结果

(三)稳健性检验

政策相互干扰是影响DID估计结果的一个重要因素。通过对这段时间内各级政府颁发的各项政策文件进行研读，本文认为国家的大数据战略是逐步递进的，前后无不一致之处，前期主要是思路方面的引领，最终成型的政策是《大数据综合试验区推进(实施)方案》的颁布。其次进行平行趋势检验，参照罗知等(2015)[36]的做法，首先以2016年为政策基准年，生成政策实施前后3年时间的虚拟变量与处理组虚拟变量的交互项，将这些交互项作为解释变量进行回归，交互项系数反映的就是特定年份实验组和控制组之间的差异。

(15)

结果显示，政策时点前的虚拟变量与实验组虚拟变量的交互项系数均不显著，政策实施后二年的系数显著为正且数值逐渐变大(图4)，这表明大数据综合试验区政策实施前实验组和控制组之间不存在显著差异，政策实施后对企业创新产生了影响，平行趋势假设成立。

图4 平行趋势检验结果

进一步采用安慰剂效应检验结果的稳健性。具体做法是保持方法和模型不变，改用2010-2015年的数据来进行安慰剂效应测试，设定2010-2012年样本为实验组，2013-2015年为控制组。DID方法结果显示交互项Treat×Policy的系数不显著，机器学习方法的结果显示CATE值平均为0.0875，出现大幅降低，这进一步说明在2016年的政策时间点之前，实验组和控制组企业在趋势上不存在显著差异。

最后，通过改变企业创新代理变量的方式进行稳健性检验，采用发明专利申请数量来代表企业创新的质量，在DID方法中交互项系数在5%水平上显著为正，在机器学习方法中CATE平均值为0.3014，接近用所有专利申请数量作为代理变量时的效应水平。

(四)分样本研究

为了进一步检验大数据综合试验区政策对我国不同类型企业的影响，按照政策关联性和企业规模分样本进行研究。首先，考虑到信息技术企业直接受到大数据综合试验区政策影响，按政策关联性将样本分为信息技术企业和其他企业进行研究。对信息技术企业的DID双重差分法研究结果显示，信息技术企业样本的Treat×Policy系数在1%水平上显著为正，其他企业样本的Treat×Policy系数在5%水平上显著为正，大数据综合试验区政策对信息技术企业的创新促进力度更大。按企业规模区分，结果显示大数据综合试验区政策更能提升大型企业的创新水平。可能原因在于，大型企业有更大的动力和资源进行大数据应用建设，通过提升整体的信息化和数字化水平而促进创新。

表8 分样本回归(DID)

机器学习方法得到同样的结论，LASSO、因果树和CNN方法的模型拟合RMSE均达到要求，采用机器学习方法得到的信息技术企业政策效应相较其他企业多53.78%，大数据综合试验区政策通过对信息技术企业的直接推动，带来新的技术及促进商业模式和市场模式改变，间接增强了其他企业的创新意愿。结论中还可以看到大型企业的政策效应相较中小型企业更高，和上述DID方法研究得到的结论一致。因此，政策制定应该考虑向信息技术企业之外的企业倾斜，并加大对中小企业的扶持力度，以期实现整个产业的迭代升级。

表9 分样本回归(机器学习)

六总结与进一步讨论

根据2010年发布的《国务院关于加快培育和发展战略性新兴产业的决定》和2016年国务院《“十三五”国家战略性新兴产业发展规划》(国发〔2016〕67号)中的定义，大数据产业是新一代信息技术产业发展的重要构成，也是工业4.0和其他产业转型升级的重要基础，对数据资源的掌控和应用已成为重要的国家战略和创新的核心要素。大数据对于创新知识发掘和知识管理是一种高效率的新技术，会对企业创新产生深刻影响。我国政府也高度关注大数据产业，通过各种政策不断促进其高速发展。本文分析大数据战略对企业创新的促进作用，采用传统的DID方法和近年来发展较快的机器学习方法开展联合研究，将国家2016年颁布大数据综合试验区政策作为一项自然实验，基于2013-2018年中国上市公司数据的实证结果表明，政策一定程度上提升了中国企业尤其是知识密集型企业的创新水平，促进效应部分来自于政策对于企业知识管理能力的影响。但是知识管理能力的中介效应并不是特别突出，原因一方面在于知识管理能力是一个渐进式的提高过程，并非短期内的政策刺激就能实现；另一方面在于大数据本身的特性决定了技术外包和能力租用对于中小企业是一个短期内效益较高的选择，因此忽略自身的知识管理能力提升。这也是本文发现大数据战略并未通过提升数字化成本而影响创新产出的一个主要原因。分样本回归结果显示大数据战略对信息技术企业和大型企业的创新促进作用更加突出，政策制定应该考虑向其他企业适当倾斜，并加大对中小企业的扶持力度，例如设置大数据和数字化改造的专项扶持资金，以实现整体产业的迭代升级。

在政策效应研究方面，DID方法是传统的优秀方法，但是必须严格做好假设，保障平行趋势。机器学习是人工智能的重要领域，目的是通过对样本特征的深度挖掘，获得准确的预测，并且实现对非线性关系的模拟与趋近，二者在方法论上存在共通之处，且一定程度上能够互补。机器学习在政策评估方面主要的应用是反事实模拟，即使用预处理和对照观测的数据，预测如果没有政策影响，外源观测结果会发生什么变化，将这一预测与政策实施后的实际结果进行比较，可以得到政策的平均处理效应。政策往往带有明显倾向性，对于大数据综合试验区政策，资源禀赋(电费)和先发优势的影响无法忽视，相较于DID方法，机器学习可以在一定程度上缓解内生性并发掘非线性关系。本文使用了LASSO、因果树和CNN卷积神经网络三种方法进行政策效应评估，得到的结论与DID方法基本一致。但是机器学习目前有实质性的限制，即无法获得不确定性估计量，在因果关系判定上存在缺陷，后续必须进一步做好理论基础支撑研究，提高置信度。

根据研究结论，得到主要的产业发展政策含义为：首先，与美国、德国和日本等发达国家相比，我国的基础产业尤其是制造业领域仍然处于较为初级的生产阶段，大数据是推动制造业智能化水平提升和工业4.0升级的基础支撑手段。大数据战略会促进生产企业的信息技术能力和知识管理能力提升，从而对整体产业的创新水平有正向作用，企业方面应以大数据综合试验区政策颁布为契机主动实现数字化转型，以数字化带动自主创新。其次，政府方面应保障公平的市场竞争环境并加强知识产权保护力度，出台相关政策促进产业间基于大数据的数字化创新，鼓励产业间大数据的相互流动与协同创新，对大数据应用进行有效监管，确保信息安全和数据安全。同时还应当通过政策和有效措施推动大数据基础建设与大数据应用之间的衔接，确保大数据的技术优势能够向传统工业和服务业转移，推动整体产业的数字化转型升级和创新发展。再次，知识管理能力在大数据战略和企业创新产出之间起到一定的中介作用，后续应当继续推动高校和研究机构开展大数据和云计算的基础研究，着重培养数字化转型人才，激励配套技术创新，进一步推进产业发展。最后，大数据产业的能耗较高，应当做好电费政策配套，在给予电费优惠推动产业发展的同时加强绿色数据中心建设。同时做好产业布局规划，避免发展过于粗放，各地盲目投入大数据产业园区项目造成资源闲置和浪费。