APP下载

基于稳健主成分回归的统计数据可靠性评估方法

2022-04-25李孝财

今日财富 2022年10期
关键词:观测点残差统计数据

李孝财

稳健主成分回归评估方式,属于一种新型的统计数据可靠性评估方法,这种方式具备较强的应用优势,已被逐渐应用于较多的统计数据可靠性评估中。本文重点对基于稳健主成分回归的统计数据可靠性评估方法进行探究,从统计数据可靠性评估中文件统计方法应用的可行性入手,分析了稳健主成分回归的统计数据可靠性评估方法,提出提高统计数据可靠性的措施,希望为相关人员提供参考借鉴,促进我国统计工作的良好开展。

只有保证统计数据具备较好的可靠性及准确性,才会发挥出统计工作的作用,为相应决策的制定提供准确的数据支撑。我国对于统计数据关注力度逐渐增加,对统计工作提出了更高的要求,如何通过有效的方式对统计数据可靠性进行评估,保证统计数据的准确性以及可靠性,是需要重点探究的问题。本文就稳健主成分回归的统计数据可靠性评估方法进行探讨。

一、统计数据可靠性评估中文件统计方法应用的可行性

保证统计数据的准确性尤为重要,数据越准确,则说明越接近真实情况,不过因为多方面影响,在真实统计数据的获取上存在较大的难度,因此需要通过一些间接的方式,判断统计数据的准确性,例如在对某个数据的可靠性进行研究时,可以通过这个数据与其他相关经济数据是否一致来表现出来,通过分析该指标与其他相关指标是否相匹配来判断。若良好匹配,说明数据具备一定的可信度。基于异常值的评估方法属于统计数据可靠性评估方法中的一种类型,这种方法的思路是利用统计分析方法,将统计数据中存在的异常点识别出来,与异常值产生的具体情况结合,对统计数据的可靠性进行判断,不过这种统计方法应用过程中,数据中存在的异常值会对其产生相应影响,使估计结果不够准确,同时,拟合获得的模型残差,不能对所有异常值进行识别。这种情况下,则无法根据这些异常值,对统计数据可靠性进行有效判断,由此可见,异常值诊断下的统计数据评估方法具备一定的不足。而稳健统计方法,会对异常值存在较强的抵抗性,因此,会获得更加准确的估计结果,最为重要的是拟合得到的残差,给出的异常值信息会更为准确,在异常值识别上具备较大的优势,进而能更好地判断这些异常值是否由于统计数据的可靠性存在问题。

二、基于稳健主成分回归的统计数据可靠性评估方法

(一)稳健主成分回归

对于稳健主成分分析方法而言,其属于两种思想结合形成的一种方法,一种是MCD估计下的稳健协方差矩阵方法,另一种是投影寻踪法,其中投影寻踪法属于统计学中较为新颖的处理方法,主要处理的是多因素且相对复杂的问题。该方法是将高维数据投影到低维空间,根据低维投影特征信息,对高维数据结构特征进行研究。稳健主成分回归分析方法的第二阶段稳健回归是一种基于最小截尾平方和估计下的稳健回归模式,同最小二乘估计比较而言,具备更强的稳健性。这种方式下的目标函数,能够按照从小到大的方式,排列样本点的残差平方和,随后,计算出这一排列中前一半的残差平方和最小值对应的估计值,将其作为最优估计值,因为残差平方和是根据升序进行排列,虽然后一半的残差平方较大,不过却不会对估计结果产生影响。该方法稳健性较高,破坏点BP=50%,即便样本点中存在一半的异常值,也不会对估计结果产生较大的影响,获得的估计值会更加准确。

基于最小截尾平方和估计下的稳健回归模式,主要是对因变量y进行分析,获得主成分ti,再将其进行回归拟合,得到如下回归函数矩阵形式:

yi=θ0+θ1ti+εi,其中(i=1,2,……,n)

为对上式中的参数进行估计,选择基于最小截尾平方和估计下的稳健回归模式,主要是由于该模式的BP=50%,具备较强的稳健性。模型参数定义为:

r2表示的是根据升序排列的残差平方,h在0.5~n范围内,通过n-h+1,对其可以抵抗的异常数据点个数便捷进行衡量,当h在0.5~n范围内时,会得到正确的分析结果,默认为0.75n。h的大小,决定着可以抵抗异常数据点的多少,越小则可抵抗的点数就会越多,直至50%。该方法的残差公式为, ri=yi-θ0-θti,是拟合获得的残差,ch表示的是修正因子,残差具备较高的稳健性,能够进行异常值的识别。

(二)主成分数目选择

对于稳健主成分分析而言,给定的主成分数目r_0表示的是原始数目,进行稳健主成分回归时,应利用模型的拟合能力以及预测能力,对主成分数目r进行科学选择。通过稳健均方根误差度量模型的拟合能力,通过稳健交叉核实均方误差度量模型的预测能力,公式如下:

其中,,r=1,…,rmax,,表示的是i点的拟合值,表示的是i点的预测值。RMSE值越小,则说明模型的拟合效果越好;而RMSECV值越小,则说明模型预测效果越好。结合这两项指标,进行稳健主成分选择统计量(RCS)的构建,如下所示:

其中,γ∈[0,1]表示调节参数,在γ的选择上,可以从以下两方面入手:第一,如果想要突显出模型的拟合能力,可以选择较小的γ;第二,若想要突显出模型的预测能力,可以选择较大的γ。提出的稳健主成分选择统计量(RCS),是模型预测能力与拟合能力的综合,能够按照这一指标,确定出主成分数目r。与RCS曲线图相结合,选择RCS值较小时对应的r,则属于主成分数目的最优值。

(三)异常点检验

进行平差测量时,通常情况下会存在一些异常点,这些异常点的存在会大大影响到计算结果,严重偏离给定的模型,为进一步对这些点进行研究,应进行实际检测,在对异常点进行检验时,可以选择以下方式:

第一,得分距离法(SD)。

其中,通过稳健主成分分析,得到λj。

第二,正交距离法(OD)

其中,;zi∈Z,φ属于稳健特征向量,主要通过稳健主成分分析中获得。

第三,标准化残差法(SR)

其中,νi表示的是拟合残差。

以上提出的几种检验方式,得分距离法的应用下,会了解到观测值对主成分产生的影响;正交距离法的应用下,能够了解观测值与主成分空间的距离;标准化残差法,反映出了拟合的优度。对于主成分而言,若观测值没有对主成分产生较大的影响,同时,与主成分子空间存在较近的距离,可以认为这一观测点属于正常的观测点,否则即属于异常点。对于回归部分而言,若观测值没有对主成分产生较大的影响,同时存在良好的拟合效果,可以认为这一观测点属于正常的观测点,不然则属于异常点。利用以上方式进行统计量检验时,分别进行主成分与回归部分观测值的检验,如果观测值通过了检验,说明其属于正常觀测点,若未通过检验,则属于异常点。给定显著性水平a,对于主成分部分而言,如果,同时ODi<SDi,说明i点属于正常的观测点,如果不满足这一条件,则说明该点为异常点。对于回归部分而言,如果,同时,说明i点属于正常的观测点,如果不满足这一条件,说明该点属于异常点。

(四)异常点及粗差探测

为更加直观的探测异常点,选择异常点诊断图的方式具体探测步骤为:第一,通过具体计算,获得各观测点的得分距离,还应计算出各观测点的正交距离以及标准化残差。第二,进行主成分异常点诊断图构造。将SD作为横轴,将OD作为纵轴,画出主成分异常点诊断图,完成以上工作后,给定出显著性水平a ,分别以以及作为临界线,处于临界线之外的点,则属于主成分异常点。第三,进行回归异常点診断图构造。将SD作为横轴,将SR作为纵轴,画出回归异常点诊断图,分别将以及作为临界线,处于临界线之外的点,则属于回归异常点。需要注意的是,如果探测出异常点,则表示此观测点会对结果产生较大的影响,或者严重偏离模型,不一定存在粗差。应与稳健主成分回归残差图相结合,进行粗差的探测。

三、提高统计数据可靠性的措施

(一)提升思想认识

各地区统计工作人员,应提升思想认识,了解统计调查及测算工作的重要性,例如在经济增长数据调查及测算中,会获得准确的经济增长数据,能够将此作为地区经济发展的数据支撑,促进国计民生发展,并且,在准确的数据支撑下,会使领导人员作出更加正确的决策。因此,我国相关部门应做好统计工作重要性的宣传工作,使人员了解到统计数据调查的重要价值。

(二)改革统计方法制度

基于统计力量上而言,需要增加基层统计投入,基层统计部门工作较为琐碎,并且存在较大的任务量,应有大量的统计人员。基于统计功能而言,应对统计指标体系进行完善,构建符合经济发展的统计指标体系,对于经济统计数据的调查及统计工作而言,主要是获得准确的经济信息,供广大群众与政府使用,使其对经济发展情况进行详细的了解,掌握当前经济发展形势,在此基础上,制定出针对性的发展决策,并非用于政府业绩评价。还存在较多对政府业绩进行评价的指标,如当地物价指数以及居民幸福指数等。进行政府业绩经济增长数据不是唯一的渠道,若可以有效将统计数据结果与政府考核分开,会大大降低人为因素对数据可靠性的影响,进而有效提升统计数据的可靠性,此外,为有效提升数据统计的可靠性,还应对抽样调查方案设计与统计调查登记时间加以完善。

(三)提高统计队伍素质

统计工作开展过程中,需要统计人员执行各项工作,其素质水平会对统计数据的准确性以及可信度产生直接的影响。当前,一些基层统计人员不具备较强的综合素质,因此,统计部门应将重点放在统计队伍素质的提升上,通过定期培训,使统计工作人员具备较强的统计能力以及正确的思想认识,提升统计数据质量以及准确性。从数据源头入手,对各种统计调查进行完善,获得准确、可靠的原始数据资料,强化基层单位统计力量,确保基层统计数据更为真实、准确,并且,还应定期评估基层统计数据。对于统计工作人员而言,应具备爱岗敬业精神,及时掌握国家的各种方针政策,掌握统计工作方法,在多样化的培训中,开阔统计人员视野,提升统计队伍的综合素质。

(四)构建安全畅通、便捷高效的联网直报系统

当前环境下,信息化技术得以不断发展,需要做好数据库、数据采集处理系统以及信息化硬件设施的建设工作,加快实现调查对象和调查人员通过互联网直接向全国数据处理中心报送原始数据、各级统计机构在线共享的工作模式,转变基层统计队伍的工作重点,从过去繁重的数据收集汇总、报表填报转向对原始数据的核查和基础统计工作的督导,有效消除可能存在的中间环节对统计数据的干扰,提高数据汇总效率和数据生产过程中的透明度和可控性。

结 语

综上所述,同传统的统计数据可靠性评估方法相比,稳健主成分回归的方式具备更高的优势,可以更好地进行异常值识别,能够获得更加准确的判断结果,在统计数据可靠性评估工作中应深入进行该评估方法的研究,保证稳健主成分回归评估方法作用的充分发挥。并且,为保证数据可靠性的进一步提升,还应从提升思想认识;改革统计方法制度;提高统计队伍素质;构建安全畅通、便捷高效的联网直报系统等方面入手,获得良好的数据统计效果,促进我国健康、可持续发展。

(作者单位:永安市统计局)

猜你喜欢

观测点残差统计数据
多级计分测验中基于残差统计量的被试拟合研究*
用于处理不努力作答的标准化残差系列方法和混合多层模型法的比较*
国际统计数据
2017年居民消费统计数据资料
顺势而导自然生成
沉降观测在信阳市中乐百花酒店B座沉降观测中的应用
课堂教学观测点探讨
课堂教学观测点探讨
浅析统计数据质量
测量数据的残差分析法