定额编制过程中异常数据的确定方法
2017-09-04汤胤琳王韧吉小明
汤胤琳+王韧+吉小明
摘 要:在编制预算补充定额的过程中,由于众多因素的影响往往会导致基础数据出现偏差甚至错误,以至于影响了定额成果的准确性。在编制定额时建立一个准确的异常数据判别体系是十分必要的,可以及时剔除异常样本,定额成果能够更加真实的反映实际施工生产的工作效率。
关键词:预算定额;格拉布准则;异常数据
1异常数据产生原因及界定
在定额的编制过程中,样本的准确性将决定最终定额成果的质量,保证基础数据的准确是定额编制中很重要的一项内容。在测定原始数据时数据间会存在一定的差异,即使是同一个人、相同的机械、同样的工作环境所测得的数据也不会完全相同。定额编制对样本的差异范围是有规定的,当样本差异在一个合理范围内时可以当做合理数据进行采用,但是当数据的差异超过某一范围并且会影响最终结果的准确性时就会被界定为异常数据,本文以港珠澳大桥珠海连接线拱北隧道定额测定为背景,通过运用格拉布准则,对预算补充定额编制时所测定的数据进行检测,以确定其中的异常数据。
1.1原始数据产生异常的原因
由于样本测定人员的习惯,测定样本时的环境以及所测对象的细微变化等原因都会给定额编制过程中所测样本带来误差。另外,一些错读、错记等人为原因造成的差异也会使样本出现误差。
经过分析可以发现,一般原始数据差异的来源并不是测定人员的差异,更多的是由于测定条件的不同以及测定对象本身的变化所引起的。归纳来说,定额测定选定工地的现场环境条件差异及观测对象不同带来数据差异情况非常多,具体包括:工序紧前工序的影响、某工序紧后工序时间节点硬性要求、施工设备的配置、设备的额定生产能力、现场机械利用率、机械操作人员驾龄、工作面分布情况、是否经常中断、设计上的质量要求、机械的折旧程度、现场人员配置合理程度、机械的租赁及租金结算形式、现场地质土质情况、当地水文特征、机械操作人员年龄及身体状况、操作人员技能熟练程度、本工序自身人机并动的影响、当地气候特征情况、所面对工作对象地质情况、设计变更影响、前后工作关联密切程度等。
1.2异常数据的界定
对于数据测定来说,一般可以根据数据误差影响的性质将误差分为3类,分别是随机误差、系统误差、粗差。
随机误差即在相同的测定环境中对同一测定工序进行重复的测定时,各组数据之间存在的差别。系统误差是指在分析过程中由于某些固定的因素引起的同一类误差,它具有重复性、单向性、可测性。如果在相同的条件下,重复测定过程也会重复出现的误差,该误差使测定结果系统偏高或系统偏低,其误差数值的大小也具有一定规律。粗差的含义是由测量人员的错误所带来的误差,这类误差可以说是一种错误,是可以避免的。通常粗差产生的原因有测量错误、读数错误、记录错误等。这类误差的值通常会与合理数据有较大的差异,是比较容易发现的异常数据。
2数据处理方法
数据测定人员在现场进行数据采集时,常常会受到各种方面因素的干扰,例如:测定人员的专业技能水平、施工人员的熟练程度、施工环境变化等,这些因素在不同程度上对测定成果产生影响,造成原始数据存在偏差或异常。因此,在现场测定得到的原始数据是不能直接用作定额编制的,必须经过合理的数据分析、处理和优化,才能作为定额编制的样本数据。
2.1传统的定额原始数据处理方法
在进行异常数据剔除时,不能凭主观意愿和感觉来进行判断,否则仅凭主观判断去剔除数据就失去了数据处理的意义。目前,我国定额编制是经常用的方法主要有以下几个步骤:
(1)在测定数据列表中,去掉人为因素造成的具有偏差极大的数据,如:工作人员违纪、施工组织不当等。
(2)根据极限偏差原理检验剩余数据中是否含有异常数据,基本原理为:通过计算测定数据中的最大极限值和最小极限值来判定数列中是否存在可疑值。误差极限算式如下:
式中:——最大极限值。
——最小极限值。
——最大测定值。
——最小测定值。
——调整系数。
——算术平均值。
公式中调整系数的取值可参考表2.1进行。
(3)计算可疑數据是否在最大极限值和最小极限值之间,若在区间内,应保留;不在区间内的数据,作为异常数据剔除。
误差极限调整法是定额研究工作中使用最多的,也是最成熟的一种测定数据处理方法,但这种方法也具有一定的局限性,例如:调整系数的取值方法是否合理可靠、误差的极限范围是否合理等。
2.2基于统计原理的数据处理方法
根据拱北隧道定额测定的特点,定额测定小组采用基于统计学原理的判别准则,以达到剔除测定数列中异常值的目的,主要采用格拉布斯准则进行判别。主要思路为定额原始数据测定值服从一定的概率分布,构造统计量g,并分析g的分布函数,根据给定的显著性水平α,计算出相应的临界值G,有公式如下:
P(g>G)=α(2-3)
公式中,α为显著性水平,其值可取0.01或0.05,在定额的原始数据处理中通常采用0.05。若上式成立,则该原始数据为异常数据,应当剔除;上式不成立,则为合理数据,应保留。
(1)t检验准则
假设测定数列χ1,χ2,χ3,χi……χn是服从正态分布N(μ,σ2)的一个随机抽取的样本数据。
构造统计量:
是服从自由度为(n-1)的t分布。
对测定数据进行分析,剔除异常值,可将上式简化,以方便对原始数据的判别。
为服从自由度为(n-2)的分布。式中,和分别为剩余数列的算数平均值和样本标准差。
给定显著性水平α,临界值是由显著性水平和自由度共同确定的常数,查表可知,如测定值满足:endprint
即
则可判定测定值为异常数据,应当剔除。
(2)格拉布斯准则
设χi,χ1≤χ2≤χ3≤χ4≤……≤χn为定额原始数据现场测定值。
构造统计量:
式中,为测定数列的算数平均值,为测定数列的标准差。
格拉布斯判别式:
即
式中,临界值G(α,n)是由测定次数n和显著性水平α共同确定的常数,可查表2.2确定。若上式成立,则该测定数据为异常值;上式不成立,该测定数据为合理数据,应保留。
3工程案例
本文以拱北隧道某一工序中人工工时消耗为例,阐述格拉布斯检验准则剔除数列中异常值的原理与步骤。
根据现场实际统计,该工作内容的工时消耗为7.280,5.327,5.579,9.120,5.480,6.143,5.468,5.923,5.977,6.093,5.212,6.959,6.909,6.035,5.069,5.930,6.862,7.370,6.893,6.190小时,共20个样本。
采用格拉布斯准则对原始数据进行异常值剔除。测定数列按从小到大的顺序进行排列:5.069,5.212,5.327,5.468,5.480,5.579,5.923,5.930,5.977,6.035,6.093,6.143,6.190,6.862,6.893,6.909,6.959,7.280,7.370,9.120,共20个样本,将数列中残余误差最大的测定数据作为可疑的异常数据进行检验。计算测定数据数列的算数平均值及标准差:
将作为可以异常值,计算统计量:
当n=20,显著性水平α取0.05时,查表3.7可得临界值。
将计算得出的统计量与临界值进行比较,可得:
故可判定最大測定数据9.120为异常数据,应剔除;对剩余的数据继续进行检验,既可得知数列中不存在异常值,格拉布斯检验结束。
对检验后的数列进行平均分析,得到每完成该工作内容所消耗时间为6.142小时/7=0.877工日。
4结语
确保原始数据的准确性一直是定额编制过程中十分重要的一项内容。利用统计学原理,运用格拉布准则可以简单、方便的找出异常数据,方法简单且结果可靠,可使得到的定额消耗量更加接近真实。同时格拉布判别准则容易编写成程序,为大量处理数据提供了必要条件。
参考文献:
[1]王华,乔鹏.公路定额测定异常数据剔除方法研究[J].中外科技,2013,33(6).
[2]张岩.运用格拉布斯准则原理确定公路定额测定中不合理数据[J].科研探索与知识创新,2009,(2).
[3]广东工业大学.拱北隧道顶管幕和冻结工法工程定额研究中期报告[R].广州:广东工业大学,2016.
[4]陈镇北.暗挖隧道顶管管幕工艺工程定额研究[D].广州:广东工业大学,2015.
作者简介:
汤胤琳(1990—),女,湖南湘潭,硕士研究生。
王韧(1993—),男,内蒙古乌海,硕士研究生,隧道与地下工程。
吉小明(1965—),男,江苏兴化,副教授,博士研究生,隧道与地下工程。endprint