企业统计数据质量的实证检验分析
2014-05-25董晓萌南方雀
董晓萌,南方雀
(1.渭南师范学院数学与信息科学学院,陕西渭南 714099;2.陕西龙门钢铁有限责任公司,陕西韩城 715405)
企业统计数据质量的实证检验分析
董晓萌1,南方雀2
(1.渭南师范学院数学与信息科学学院,陕西渭南 714099;2.陕西龙门钢铁有限责任公司,陕西韩城 715405)
企业进行决策的重要依据是其所掌握的数据信息,数据质量的好坏直接影响着企业决策的方向.根据2011年全国各省市规模以上企业的15项指标数据,利用K-S检验法验证企业指标数据是否满足对数正态分布规律,且根据判断正态分布异常点的方法对15项指标中的异常数据进行识别.结果表明:2011年全国31个省市规模以上企业的统计数据的准确性和可靠性较好,只有西藏、青海、江苏三省共4个指标未通过检验,需进一步核实未通过检验的指标数据.
企业数据质量;对数正态分布;K-S检验法;异常数据
0 引言
企业统计数据质量最重要的特点是数据的准确性[1],准确性高的数据能为企业进行正确决策提供保证.因此,企业数据准确性高低的判断就显得尤为重要.本文基于K-S检验法验证了规模以上企业统计数据的对数正态分布规律,根据统计数据质量评价指标体系,综合评价2011年全国31个省市规模以上企业统计数据质量的好坏.
数据作为企业进行决策时的重要依据,无论是对国家进行宏观决策还是企业进行微观决策都起着非常大的作用[2].企业数据质量的影响因素很多,国外学者主要集中在技术性因素的研究上,而国内学者主要集中在非技术性因素的研究上,非技术性因素主要包含有企业规模大小、企业信息化程度高低、企业重视程度高低、企业统计力量强弱、规章制度是否完善、数据与利益的相关性大小、统计人员知识水平高低、统计人员地位高低等因素.
目前,国内学者对于企业数据质量的影响因素研究,主要是定性研究、因子分析及回归分析.本文基于K-S检验法对2011年全国31个省市规模以上企业的统计数据质量进行实证检验,检验数据质量的准确性及可靠性,并找出其中的异常数据,分析异常原因.
1 企业统计数据质量实证检验分析
1.1 K-S检验法
K-S检验方法[3]作为拟合优度检验方法之一,是根据样本提供的数据信息去推断总体是否服从某一理论分布,主要对于连续型随机变量是否服从某一理论分布进行检验.单样本K-S检验的原假设是:检验总体与指定的理论分布无显著差异.常见的理论分布主要有正态分布、泊松分布、均匀分布及指数分布等,本研究的理论分布是基于正态分布下,结合R语言编制了K-S检验程序函数ks.test().
1.2 企业总产值的对数正态分布规律
企业总产值是反映一个企业经济发展水平和规模的总量指标.在此,以全国31个省市的规模以上企业总产值的分布为例,验证企业总产值的对数正态分布规律.[4]结合《中国统计年鉴(2012)》资料,得到2011年全国31个省市规模以上企业的总产值,见表1.
表2 企业的总产值在各地区中分布频率表
图1 企业的总产值在各地区中分布直方图
企业总产值[3]的最高值为107 680.68亿元,最低为74.85亿元,对各企业的总产值x取自然对数lnx,lnx的取值范围为4.32~11.59, 表2所示的是在不同范围内的企业数量及其所占的比例,图1是企业的总产值在各地区中的分布直方图.
从表2或图1可以得到企业总产值分布结构的特征为:(1)企业总产值比较小或比较大的地区占少数,大部分地区处在中间状态,即企业总产值呈现出一种两头小中间大的分布状态; (2)图形关于均值9.60对称,即企业总产值x的均值约为14 563亿元;标准差约为1.44;(3)在无经济危机发生的情况下,若以不同年份的数据作图,其形态与图1相同,只是均值和标准差的数值会发生变化.
在R软件中调用函数ks.test()对各地区企业总产值指标进行对数正态分布检验[3,5],运行结果为0.736>0.05,因而可以判定各地区规模以上企业的总产值服从对数正态分布,表明该数据质量较高.
1.3 规模以上企业统计数据质量的准确性检验
根据中国2012年统计年鉴数据[6-7],选取2011年我国31个省市规模以上企业的统计数据,应用KS检验方法,检验企业统计数据各项指标是否服从对数正态分布,选取的指标为:企业单位数(x1)、工业总产值(x2)、资产总计(x3)、流动资产合计(x4)、固定资产原价(x5)、累计折旧(x6)、负债合计(x7)、流动负债合计(x8)、所有者权益合计(x9)、主营业务收入(x10)、主营业务成本(x11)、主营业务税金及附加(x12)、利润总额(x13)、本年应交增值税(x14)、全部从业人员年平均人数(万人)(x15).
在R软件中调用函数ks.test()对上述指标进行对数正态分布检验,检验结果见表3.
表3 2011年全国31个省市规模以上企业各项统计指标对数正态分布K-S法检验结果(α=0.05)
由表3可以看出[8-10]:(1)各省市上报的规模以上企业的统计数据基本都通过了检验,但西藏有2个指标,江苏、青海各有1个指标未通过检验,总体数据质量还是比较好的,对这几个不正常的数据,应进一步核实,对因某种原因而引起的失实数据,应予以纠正,若是真正的观察值,则予以保留;(2)被检查的15个指标都通过了对数正态性检验,这表明,规模以上企业的统计数据服从对数正态分布这一假设是正确的,因而基于此假设采用对数正态分布的方法检验数据和识别异常点是可行的.
采用正态分布异常点的识别法进行异常点的识别,结果如表4.
表4 主要统计指标对数正态分布最大显著性水平
由表4可以看出[11-12]:(1)31个省市规模以上企业的统计数据质量是比较好的;(2)选取的所有总量指标都通过了检验,并且绝大部分指标的相对拟合误差小于20%,只有2个指标的相对拟合误差大于20%,可见统计数据的可靠性比较好,质量比较高;(3)指标x4(流动资产合计)和指标x7(负债合计)分别有1个异常点,指标x13(利润总额)有2个异常点.对这几个不正常的数据,应进一步核实查明原因,对因某种原因而引起的失实数据,应予以纠正,若是真正的观察值,则予以保留.
由准确性检验可知,2011年全国31个省市规模以上企业的统计数据的准确性和可靠性较好.
2 结语
本文对2011年全国31个省市规模以上企业的15项总量指标,采用K-S检验法验证企业总量指标的对数正态分布规律,并采用正态分布异常点的识别方法对异常数据进行识别.结果表明:2011年全国31个省市规模以上企业的统计数据的准确性和可靠性较好,只有西藏、青海、江苏总共4个指标未通过检验,同时指标x4(流动资产合计)和指标x7(负债合计)分别有1个异常点,指标x13(利润总额)有2个异常点.对这几个不正常的数据,应进一步核实,对因某种原因而引起的失实数据,应进行纠正,若是真正的观察值,则需要保留.
[1]马凤清.影响企业统计数据质量的主要因素及应对措施[J].数字化工,2005,(7):55-56.
[2]王颖.企业统计数据质量影响因素研究[D].杭州:浙江大学硕士学位论文,2006.
[3]成邦文,王娅莉,石林芬,等.统计规模指标的对数正态分布规律[J].科学与科学技术管理,2000,(9):9-11.
[4]袁志发,周静芋.多元统计分析[M].北京:科学出版社,2002.113-120.
[5]汤银才.R语言与统计分析[M].北京:高等教育出版社,2008.85-91.
[6]陈希孺.概率论与数理统计[M].合肥:中国科学技术大学出版社,2003.180-191.
[7]贾俊平.统计学[M].北京:中国人民大学出版社,2012.141-149.
[8]门登霍尔.统计学[M].北京:机械工业出版社,2009.124-136.
[9]龙海生.谈影响企业统计数据质量的因素及提高措施[J].新疆农垦经济,2000,(1):49-50.
[10]李盼.政府统计数据质量实证检验分析[J].统计与咨询,2011,(5):18-19.
[11]王冬菊.影响企业统计数据质量因素分析[J].统计科学与实践,2011,(4):58-59.
[12]余芳东.国外统计数据质量评价和管理方法及经验[J].北京统计,2003,(7):54-55.
【责任编辑 牛怀岗】
Analysis of Empirical Test Based on the Corporations Data Quality
DONG Xiao-meng1,NAN Fang-que2
(1.School of Mathematic and Information Science,Weinan Normal University,Weinan 714099,China; 2.Shaanxi Longmen Iron and steel co.,Ltd,Hancheng 715405,China)
The data is the basis of decision-making,and data quality is related to country macro decision-making and enterprise microcosmic decision-making.Based on 15 measures of total amount of 31 provinces,municipal enterprises above designated size will be tested whether obey the lognormal distribution with K-S test method in 2011,and the abnormal data will be identified with the normal distribution of abnormal point identification methods.The results show that:the statistics of enterprises above designated size is better in accuracy and reliability with 31 provinces,cities in 2011,only in Tibet,Qinghai and Jiangsu province,a total of four indicators failed the test.
corporation data quality;logarithmic normal distribution;K-S test method;abnormal data
F222
A
1009-5128(2014)07-0008-04
2013-11-11
国家统计局科学研究项目:基于多元统计分析的我国环保支出研究(2012LY051)
董晓萌(1982—),女,陕西渭南人,渭南师范学院数学与信息科学学院讲师,理学硕士.