大数据技术对建设工程招投标市场投标企业流失情况分析
2020-02-01周欣
周欣
(深圳市建设工程交易服务中心 广东省深圳市 518000)
1 研究背景
深圳建设工程招投标市场从2000年至今已累计近20000 多家投标企业,企业分布覆盖全国各地区。本文尝试从深圳建设工程招投标市场投标企业市场行为分析入手,参考投标企业活跃度数据,定
义企业流失判定标准;并选取合理算法模型,对锁定范围的投标企业进行企业流失重大影响因子分析;全面科学的展示了深圳建设工程招投标市场投标企业流失倾向性与企业数量分布情况,为市场主管部门提供了立体、客观的数据说明,期望能在市场健康监督及科学发展引导中发挥积极的推进作用。
本文以深圳市建设工程交易市场从2000-2020年的相关数据为基础数据源(以下简称“基础数据源”),并基于此完成相关研究并实现结果输出。
2 投标企业流失判定模型的建立
2.1 投标企业流失判定辅助指标
本文选取企业投标活跃度来作为“企业流失判定”辅助数据指标。
企业的投标行为时间间隔,是其活跃度的重要指标。我们通过分析所有投标企业的最大投标间隔天数,也就是所有企业在历史中的投标间隔天数的最大值,来实现市场投标企业活跃特征的拟合。在数据源完成基础清洗后,使用SPSS 软件进行统计分析,输出图形展示:深圳建设工程市场投标2 次及以上投标企业的总体活跃特征有呈现长尾特性的趋势,但总体数据仍是集中在1000 天以内。
根据图1 和图2 中投标企业的活跃特征,我们初步设定,当投标企业的最大投标间隔天数达到1000 天以上,即认定该企业进入“小概率”期间,意味着该企业对于当前市场已经流失,基于此设定对流失企业具体判定标准进行选定及认证。
2.2 确定流失企业判定阈值
我们分别选取深圳投标企业的活跃度排名前90%样本群、前85%样本群和前80%样本群进行分析,分别得到排名前90%、85%、80%条件下的投标企业最大投标间隔天数阈值,数据如表1。
同时根据“基础数据源”分析可得,深圳投标企业历史平均投标间隔天数13.4 天和历史平均投标次数56.3 次;将此作为深圳投标企业“基准投标间隔天数”和“基准投标次数”。由此为参考原点,计算出在前90%样本群的阈值天数内,对应样本群每家企业有66.8 次投标行为,相比“基准投标次数”56.3 次明显溢出;在前85%样本群的阈值天数内,对应样本群每家企业有42.4 次投标行为,相对“基准投标次数”有75%以上的行为覆盖;在前80%样本群的阈值天数内,将会发生27.9次投标行为,对“基准投标次数”覆盖性略有不足。
综合考虑样本群覆盖率和平均投标行为覆盖率,我们最终选定85%样本群的阈值天数(即567 天)作为投标企业的生命周期天数。超过该阈值天数都未发生再次投标行为的企业,我们将认定该企业已经从当前市场中流出。基于前述85%样本群的阈值天数为567 天,本文将投标人退出定义为最后一次投标时间在2018年12月11日前投标为流出。本文数据时间段为2000年1月1日-2020年6月30日,共有19575 家企业进行投标。
表1:投标企业不同样本群投标间隔阈值
图1:最大投标间隔企业分布情况(条形图)
图2:最大投标间隔企业分布情况(柱状图)
图3:历年投标人流入流出对比图
图4:历年净流入企业情况
图5:不同流失倾向性企业数量分布
具体模型如下:
其中i为某投标企业,dx为当前日期,dyi为该企业最近投标日期。
3 市场流失企业识别模型的建立
运用以上投标企业流失判定模型,获得深圳市场历史投标企业的流失企业名单,进一步研究流失企业的总体特征情况及重大影响因子,建立最终的市场流失企业识别模型,完成市场流失倾向性企业情况展示与企业分布情况展示及分析。
3.1 深圳历年企业流入与流失情况
某企业历史上首次在本市场进行投标活动时,我们定义首次投标的时间节点为该投标企业流入深圳市场的时间点。
表2:二分类logistic 回归模型中的变量
对“基础数据源”分析并图标展示,深圳市场历年投标企业的流入与流失数量呈倒金字塔结构分布,即投标人的流入与流出数量总数随时间推移在不断增多,侧面佐证近年深圳工程建设的迅猛发展。
基于图3 数据,计算可得历年的投标企业净流入数据。
由数据可得,深圳招投标市场每年净流入企业数呈正向发展;但2011年、2017年-2018年的流出企业数量大于流入企业数量,且2002年、2010年、2012年、2013年净流入企业数量较少,市场竞争相对平和。对此,我们做进一步分析研究。如图4所示。
3.2 投标企业市场流失影响因子分析
我们基于市场交易数据、投标企业基本信息和投标行为数据,对影响企业流失的可能因素展开分析。
(1)企业自身因素:含“注册区域、注册时长、专业资质、规模等级、业务类型”自身差异性因子5 个。
(2)企业中标与否及相关因素:含“中标率、累计中标金额区间、中标次数区间”中标相关因子3 个。
(3)企业投标行为因素:含“投标次数等级、投标频次、投标规模偏好、投标类型偏好、抽签抽中率”行为相关因子4 个。
(4)其他因素:含“进入市场时间、首末次投标时间间隔”相关因子2 个。
3.3 建立流失企业流失倾向识别模型
通过进一步量化计算,得出二分类logistic 回归模型。
Y= a + b1X1 + b2X2 + b3X3 .....+ bnXn
Y 为统计中的预测目标(留存1,流失0),X1~Xn 为最终确定的n 个影响权重较大的因子,b1~ bn 分别为标准化处理后的各个因子的影响系数,a 为调整常数。
将前文所述的影响因子均作为自变量使用全部进入法分别加入回归模型,同时对回归方程各影响因子进行合理性检验。经过残差分析和拟合度进行验证,排除掉非重要的因子,最终得到影响企业留存与流失的影响因素回归模型。表2 中,Sig 系数≤0.05 为重要因子的检验值,Wals则为各因子的重要性评估数值越大重要性越强。
经确定五个影响权重较大的因子分别为“规模等级、投标频次、中标情况、注册时长、注册区域”,方程中n=5,b1~ b5分别为标准化处理后的各个因子的影响系数,a 为调整常数。
经数据带入,最终的回归模型为:
Y=0.163X1+0.765X2-0.129X3+0.562X4+0.397X5-3.945
又根据企业的流失倾向性P 值与回归方程Y 值有如下关系:
所以最终的市场流失企业识别模型为:
其中P 为企业的流失倾向性,X1~X5为规模等级、投标频次、中标情况、注册时长、注册区域五项因素。
通过识别模型,代入每家投标企业的相关因子数据,得出各企业的流失倾向性和整个深圳市场投标企业的流失倾向特征(图5),直观展示了当前市场的流失倾向性特征,并给市场主管部门进行市场发展引导提供数据支撑。
4 深圳市场流失特征识别
4.1 流失企业特征识别
4.1.1 企业投标频次
由模型可知,投标频次是影响最大的因子,且投标频次与企业留存呈现正相关关系,投标活动越是频繁,越不可能流失。
4.1.2 企业规模等级
此因子为正向因子:企业的规模越大,在市场中的留存概率也越高,即大企业在市场中更不容易流失。市场中流失的主体是规模偏小,扛风险能力较弱,对市场政策变化较为敏感的企业。
4.1.3 企业注册区域
同为正向因子:本地企业相较于外地企业留存概率更高。
4.1.4 企业注册时长
同样是影响投标企业留存的一个正向因子,注册时间长的企业相较新企业在深圳市场的留存率也更高。
4.1.5 企业的中标情况
此因子是一个反向因子。我们常识认知的是,中标率越高的企业越容易在当前市场留存,可实际是中标率高的企业比中标率低的企业在市场中的流失概率要更大。
造成这种现象的深层原因主要是:留存的企业因自身规模等多项因素,能支撑较多次数的投标行为,而流失企业由于投标成本或者其他因素,可能一次中标后,就未继续发生大量投标行为,导致中标率搞得企业反而留存率并不一定高。
例如,某工程有限公司,该企业的累计投标次数为2862 次,在深圳市场月均投标17 次,月均中标0.8 次。较高的投标数量导致了留存企业中标率仅为常规流出企业的30%。
由此总结,深圳市场中企业成立时间、规模等级、投标频次和注册时长与企业留存呈正向关系,且注册地址为本地的企业更易留存,以上与我们经验常识相吻合;而企业中标率与企业留存呈反向关系,这与我们常规认知存在一定差异。
4.2 深圳市场企业流失倾向性
深圳市场企业流失倾向性:在5%和82%位置企业流失数量分别形成两个不同大小的峰值;特别是76%~90%流失倾向性之间的企业数量占比近15%,此现象特别值得思考及进一步挖掘分析。深圳市场大部分企业还是处于13%~75%流失倾向性之间,且企业数量分布在此区间较为均匀。
5 结语
本文应用大数据技术对建设工程招投标市场投标企业流失情况分析进行初探,但也存在很多分析不够透彻深入的情况,这些需要在未来不断完善并加深研究,实现大数据为工程建设招投标提供更好的应用服务。