基于大数据技术的中小企业成长性评价方法研究

2019-07-27蔡高远赵志伟

统计与信息论坛 2019年7期

乔晗，蔡高远，赵志伟

(1.河南大学经济学院，河南开封 475004；2.天津财经大学统计学院，天津 300222)

一、引言

中小企业是我国国民经济的重要组成部分，但其衰减速度却显著高于其他国家(王永进等，2017)，加大了国家支持和社会资本投入的风险。因此，如何有效评价及识别具有高成长价值的中小企业，给出具有操作性的政策或投资依据，进而实现供给侧结构性改革相关政策对中小企业的精准扶持，以及提高金融资本的投资效率，成为近年来政府、社会和学界共同关注的热点问题。相关研究具有服务经济及推进企业成长理论及综合评价方法研究的学术与实践价值。

评价企业成长最直接的方式是寻找代理变量，如托宾Q或销售额增长率，其优势是评价值为数值型数据，便于定量分析其影响因素[1]。但企业成长是一个复杂概念，利用单一变量作为政府或资本的投资依据显然不恰当。诸多因素共同决定企业成长的机制，意味相应测度(评价)需要多维因素的评价信息，并将其合成。因此，多指标综合评价方法成为衡量企业成长性的另一个主流选择，但国内外相关研究遵循不同路径。其中，由于风险投资/私募股权(VC/PE)更善于识别高成长企业(Monika et al.，2015)，国外文献主要利用历史信息或问卷调查，通过归纳投资实践的项目评价准则，构建企业成长性评价指标体系，并倾向于选择企业家素质等定性指标[2]。

与国外文献从实践到理论的研究路径不同，国内文献更注重从企业成长理论出发，构建以财务指标为主的评价体系。早期具有影响力的是国家经贸委等(2001)提出的GEP评价法，通过10项财务指标信息反映各方面的成长优势，但未能直接反映成长的定性信息[注]GEP评价法假设定性信息最终将不同程度在企业财务指标中表现出来。，且缺乏理论支撑。后续研究逐步强调成长评价的理论基础，主要分两种模式：一是力求评价模型的实践意义，指标体系构建时选用以财务指标为主的定量指标(张冬，2013)，但存在缺失定性信息的问题；二是为求评价模型的完备性，指标体系通常涉及难以测度的定性指标，但受方法所限难以实证分析，导致研究成果难以指导实践，如张玉明等(2012)利用仿生学构建企业成长评价模型中涉及企业家经营能力等定性指标，但未实证检验模型的有效性。此外，目前已有中小企业成长性评价方法通常仅能给出成长性高低的排序信息，且难以检验评价结论的有效性，也在一定程度上降低了研究对于投资实践的指导意义。

本文基于相关理论构建中小企业成长性评价模型，通过引入大数据技术力图实现两个具体目标：一是利用网络爬虫和文本挖掘技术，解决中小企业成长性评价定性指标难以测度的问题，改善评价信息不充分的问题；二是构建基于机器学习算法的中小企业成长性分类模型，增加企业成长性的分类信息，提升传统中小企业成长性评价结论的信息量，并通过比较分类信息与传统综合评价方法的排序信息的一致程度，检验成长性综合评价模型的可靠性，为决策实践提供更为有效的参考依据。

二、评价理论基础与模型构建

企业的成长极为复杂，目前仍然是一个具有很强“黑箱性质”的问题(杨林岩等，2010)。本文力图在进一步梳理企业成长理论的基础上，构建一个中小企业成长性评价模型。

(一)企业成长评价的理论基础

企业成长性评价框架是基于影响企业成长的因素及其作用机制理论构建的。

1.古典经济学分工理论。企业作为一种分工组织，技术操作分工强化劳动者学习与经验积累效应，专注工具运用，推动机器改进和发明，其导致劳动生产率提高，出现规模经济(斯密，1776)。随着分工的专业化，则衍生出新企业，拉长社会生产链条，增加一国企业数量(阿·杨格，1928)。就成长性概念的测度而言，分工体现出劳动型技术与工具资本技术的合成进步，因此，分工理论实际上开创了将技术因素作为企业成长动因，以规模测度企业成长性的先河。

2.新古典经济学的企业最优规模理论。现实中，企业基于分工规模经济决定的成长不可能无限持续。随着企业规模扩大，其灵活性和竞争力的下降，最终必然失去成长动力，另外也存在企业家精力和寿命制约企业成长的情况。马歇尔提出引入外部经济、企业家有限生命和企业垄断三个因素，建立企业成长等价于调整企业规模，追求最优规模经济的企业成长动因逻辑。即当技术、需求等外在条件变化后，企业从原来最优规模转变到新最优规模体现的企业成长逻辑(纳尔逊等，1982；杨小凯，1994)。该理论基于企业规模的最优界定，提出技术、需求等外部因素对企业成长的影响机制，对企业成长评价具有重要价值。

3.企业随机成长理论。吉布莱特(1931)提出，企业成长独立于企业规模，影响企业成长因素极为复杂，其成长是一个随机过程。它被称为“吉布莱特定律”。相关跟进研究发现，产业组织(Lotti el al，2001)、技术与资本(Cabral，1995)、融资信誉机制和法律制度(As1i，1998)及宏观政策(Thorsten，2002)等外部因素与企业规模成长呈现负相关。显然该理论揭示了企业成长受到大量多种类型外部因素影响的高度复杂性。

4.新制度经济学的企业成长边界理论。科斯(1937)以交易费用划分企业与市场边界的理论，为理解企业成长提供了将市场活动放置于企业内部，企业成长可以表现为企业功能多样化边界扩展的思路。威廉姆森(Williamson，1975，1985) 进一步提出企业与市场的相关逻辑。即企业是按一种技术流程先后连续生产的一体化组织，其生产的各个环节均可以通过交易与市场发生关联。当交易存在信息不完全和不对称情况，出现违约扯皮等影响生产连贯性问题时，企业可采取将其市场交易的生产活动纳入企业内部，其成长表现出企业纵向边界的扩展。其中，威廉姆森从核心技术角度，特别提出企业的“有效边界”概念。该理论启发企业成长研究对市场组织效率因素影响的深入思考。

5.管理驱动的企业成长论。主要是Penrose提出企业资源决定能力，能力进而决定成长理论[3]。企业资源包括物质和人力资源，管理将二者结合创造出企业“主观”动能，即在企业内部实现物质和人力资源的充分挖掘和创新利用的能力。其中，创新包括产品创新和组织创新，

创新能力是发现潜在成长机会的前提。钱德勒(1977，1992)从历史和宏观角度对企业制度变迁研究中，推进了彭罗斯的理论，发现了现代企业出现的重大制度变化。即企业规模极度扩张引发相应管理的高度复杂化，导致所有权与管理权的分离。而两者分离导致企业目标从所有者的利润最大化，转向管理者利益最大化。其表现为管理者从追求利润转换为追求与企业规模或增长密切相关的企业价值的成长。由此，企业价值成为决定企业实现稳定成长的因素。显然管理者在现代企业成长中发挥着决定性作用。

综上所述，企业成长理论历经技术分工导致企业规模经济的成长，基于技术与需求变化的规模最优决定，外部因素冲击下企业成长的随机演化，企业将市场交易纳入内部的纵向边界扩展成长，以及基于企业家价值的成长目标转换这样一个历史过程。但当前随着技术的快速进步，资源配置的全球化，金融交易的机制深化，人力资本的持续提升，企业成长决定因素及其机制的复杂性随之持续增加。虽然经典理论给出了企业成长因素研究的重要思路，但其目前还不能给出逻辑一致的体系化分析，相关研究仍然具有推进企业成长性探索的意义。

(二)评价模型构建

为充分反应评价对象特征的多维性，评价研究都倾向建立较为庞大的指标体系。但加入过多不重要信息可能稀释真正核心重要指标的作用[4]。为此，本文在理论分析与赵志伟(2018)研究成果基础上，构建中小企业成长性评价的简化模型，包括企业家素质、创新成长能力、管理成长支撑、行业成长空间及产品成长动力五大要素，具体内容如表1所示。指标体系中含有5个难以直接测度的定性指标。

表1 中小企业成长性评价指标体系

三、定性指标测度方法

基于大数据的经济变量测度方法近年来得到了快速发展，如乔晗利用超市电子数据测度消费价格水平，Baker等通过计算主流报纸的关键词出现频率测度经济政策的不确定性[5-6]。本文借鉴上述思路，编写爬虫程序抓取网络文本信息，并利用文本挖掘技术测度中小企业成长性评价中的定性指标。

(一)文本信息获取与预处理

首先根据指标特征，利用Python编写爬虫程序抓取指标测度所需的文本信息，如表2所示。然后利用Python第三方库jieba对抓取的文本信息进行替换、删除和分词操作，并建立字典，提高分词的准确性，为后续文本信息的挖掘奠定基础。

表2 定性指标测度方式

(二)文本挖掘与定性指标测度

百度AI语义分类器适合情感分析，而“企业家声誉”与“市场认可度”的文本信息更多的是情感表达，因此利用百度AI语义分类器作为上述两指标的语义分析与测度工具。以前者为例，假设抓取的企业i(i=1，2，…，k)企业家声誉文本信息数量为ni，则对于特定某条文本j(0

(1)

同理，指标“市场认可度”亦如此。

(2)

其中wh(h=1，2，…，H)表示对应分类下的权重。

四、成长性预测模型构建

基于综合评价方法构建的中小企业成长性评价模型，通常仅能给出企业成长性的排序信息，且难以检验评价结果的可靠性。本文利用随机森林等四种机器学习分类算法，建立成长性预测模型，通过充分挖掘历史信息的方式，增加评价结果的分类信息，并提供一种检验综合评价模型可靠性的思路。

(一)样本与数据

为保证数据的可得性、代表性与完整性，本文选取我国中小板699家上市公司年作为训练样本。其中输入变量为样本企业2013年49个财务指标数据。输出变量选择上，现有衡量成长性的单一指标主要采用主营业务收入增长率(Dunne & Hughes，2013)或托宾Q(于旭等，2012)。但实质两者存在本质差异：前者反映给定时间内企业成长的历史表现，后者则是利用当期数据预测企业未来成长趋势。显然，前者作为机器学习的输出变量更为恰当。因此，本文利用2011-2017年间样本企业主营业务收入增长率作为输出变量。所有数据来源于国泰安数据库。

在数据预处理方面，首先进行数据清洗，检查是否有错误数据，并利用拉格朗日插值法填补缺失数据。在此基础上对输出变量的连续型数据进行转换，以适应分类算法的需要，即将主营业务收入增长率排名前30%标记为高成长企业(输出变量记为1)，剩余为非高成长企业(输出变量记为0)。

(二)模型训练

基于上述训练样本，本文选取随机森林、Adaboost、支持向量机和朴素贝叶斯四种经典分类算法，分别构建中小企业成长性预测模型，并采用十折交叉验证法检验四种分类算法的可靠性，并评价不同算法对数据集的泛化能力。考虑到历史数据的长度可能会对企业成长性预测产生影响，本文采用三个时间段的数据分别作为训练模型，最终预测精度如表3所示。

表3结果显示，四种算法中除朴素贝叶斯分类算法预测精度稍低以外，其余三种均表现出了较好的预测能力；历史数据长度没有对预测精度构成较大影响。2012-2017年数据在四种算法中的预测精度均较高，表明当模型利用当前数据预测5年内的企业成长时更为有效。因此，基于随机森林、Adaboost和支持向量机三种算法训练的模型适合用于预测中小企业的成长性。应当指出的是，虽然上述机器学习算法能够直接给出中小企业成长性的分类预测信息，但由于其没有理论依据，且缺乏政策空间，因此本文仅将其定位于成长性评价模型的检验与补充。

3)用三根木条制作一个三角形的架子①，再用四根木条钉一个四边形的架子②，分别拉动架子①和②的边框，你有什么发现？(质疑4)

表3 四种算法10折交叉验证精度结果

五、成长性评价方法应用研究

这里选取中小板20家上市公司[注]本文遵循随机原则选取样本企业，利用简单随机抽样方法选取，根据抽样结果显示，20家企业分布于9个地区的7个行业，具有一定代表性。为研究对象，利用上文构建的指标体系及相应测度方法评价其成长性，并通过基于机器学习算法建立成长性预测模型，在检验评价结论可行性与有效性的同时，提供企业成长性的分类信息，为投资决策提供更多依据。定量指标数据主要来源于国泰安数据库、上市公司年报及评价企业主页。由于存在敏感指标(如企业家声誉等)，本文隐去评价企业名称，并用编号(j=1，2，…，20)代替。

(一)指标测度

首先借鉴赵志伟(2018)的研究成果，对各企业定量指标“研发费用占比(X3)”、“研发人员占比(X4)”、主营业务收入增长率(X6)、行业平均利润率(X9)及产品利润与营销成本比(X11)进行测度。企业员工离职率(X7)是负向指标，通过用1减去该指标的方式正向化。企业文化创立时间(X8)通过查找公司主页相关内容计算。

对于指标“政策支持程度(X10)”，通过利用Python编写爬虫程序，抓取人民网财经频道2018年1月1日至6月20日期间，“行业名+国家+政策”或“行业名+部(委)+政策”的词语组合在文本信息中出现的频率进行测度：频率越高说明企业所处行业受到政策支持力度越大。

对于指标“企业家声誉(X1)”、“市场认可程度(X12)”、“企业家能力(X2)”和“技术领先程度(X5)”，根据上文方法抓取2017年1月1日至2018年6月1日期间相应网页(如表2所示)的评论信息，并进行语义分析。其中分类数量H的确定，需要同时权衡指标测度精度要求与分类精度。因为虽然H越大越有利于指标测度，但同时可能会大幅降低分类精度。为此，本文在相同训练样本条件下，设定H的取值分别为3和5进行验证集精度的比较。与此同时，还利用百度AI语义分类器进行精度比较，以检验是否有必要利用朴素贝叶斯分类算法，具体结果如表4所示。其中wh在H=3和H=5下分别为0.5，0，0.5和0.3，0.2，0，0.2，0.3。

通过表4可知，朴素贝叶斯分类器3分类时在验证集上具有更高的预测精度，且精度要高，一方面说明了本文人工构建训练集并使用朴素贝叶斯分类器的必要性，另一方面也表明朴素贝叶斯分类器在多分类预测时表现较差。基于上述分析本文令H=3。在此基础上利用公式(2)计算各企业在X2和X5下的指标值。

表4 不同分类器的预测精度

(二)评价信息集成

首先无量纲化指标信息。无量纲化方法的选择及所导致原始数据分布的变化，都会直接影响综合评价的最终结果(乔晗，2015)。为了保证原始变量相对变异信息保持不变，本文选用如下均值化方法去除指标值的量纲，其中：

(3)

(三)有效性检验

为了检验本文第二部分构建的中小企业成长性评价模型及第三部分的指标测度方法的有效性，除模型1以外，本文还依次列出了如下7个中小企业成长性评价(预测)模型结果，并将结果报告在表5中。模型2为表1去除5个定性指标后20家中小企业的成长性排名，通过结果可以发现排序结果发生了较大变化，说明本文加入的定性信息对中小企业成长性评价结论具有较大影响。为了进一步验证本文建立的评价模型的有效性，本文利用国家经贸委等(1999)及赵志伟(2018)的研究成果对本文20个企业样本展开评价[7]。最终结果分别为模型3和模型4的排序，比较发现虽然模型1、3和4均为中小企业成长性评价，但评价结论表现出一定的差异。那么实践中到底采用哪个评价模型指导投资决策呢？由此引出评价结论的检验问题，这是当前综合评价方法研究始终面临的一个难题。更为重要的是，虽然评价模型1-4均给出了20家中小企业的成长性排序，但依然无法为决策者提供出哪些企业是否具备高成长性的建议，因为即使排名第1的企业也不一定具备高成长型。上述两方面问题降低了综合评价方法对于实践工作的指导价值。为此，本文利用第四部分构建的基于4种机器学习分类模型对评价结论进行检验，结果如表5模型5-8所示，分别为随机森林、Adaboost、支持向量机与朴素贝叶斯四种算法。通过结果比较发现，前三种分类算法结论较为一致，且与本文构建的综合评价模型结论(模型1)更为接近：模型1排名前7位的企业几乎均被三种算法视为高成长型企业，排名后5位也被三种算法视为非高成长型企业。

表5 20家中小企业成长性综合评价值及相应排序与分类

最终通过机器学习算法构建的中小企业成长性分类模型检验可知，本文构建的中小企业成长性评价模型更为有效，且在20个中小企业中，序号为6、3、10、16及1这五家企业具有高成长型，具备投资价值。

六、主要结论

本文在企业成长相关理论基础上融入当前PE/VC投资理念，利用综合评价方法与机器学习算法，分别建立了企业成长性的评价(排序)模型与预测(分类)模型，并利用网络爬虫和文本挖掘技术测度定性指标，力图为政府对中小企业扶植政策的实施，及其政策效果识别提供评价依据，同时也为金融资本向中小企业投资提供成长性评价的理论方法参考。

具体主要完成以下工作：第一，在已有研究成果基础上重构中小企业成长性评价模型及相应简化指标体系，力图用更少的信息预测企业成长。实证检验结果表明该模型及指标体系具备有效性。第二，利用基于静态与动态网页爬虫技术抓取网络文本信息，并以此为依据测度中小企业成长性评价指标体系中难以直接描述的定性指标，解决了评价指标信息不充分的问题。第三，利用机器学习算法构建了中小企业成长性预测模型，解决了中小企业成长性评价因结论信息量不足而难以直接投资实践的问题，并为检验评价模型结论有效性提供一种新思路。