APP下载

管理实践中常见的回归陷阱

2021-11-02顾金鸣

科技信息·学术版 2021年20期
关键词:统计回归分析数据

摘要:回归分析是常被应用于商业管理领域的“万金油”统计推断方法,由于在统计工具中运用回归分析十分便利,工具背后的统计原理和假设常常被人忽略,以致于在实际问题中运用时容易经不起推敲,甚至误人子弟。為了纠正管理工作者常出现的错误认识,本文将结合自身的管理实践经验梳理九个常见的回归陷阱。

关键词:统计;回归分析;陷阱;数据

统计学是研究如何收集、整理、分析和解释涉及社会、经济、管理问题的数据,并对研究对象进行统计推断的一门科学。

商业管理活动需要能够洞察个人、组织并对其行动和状态进行部分改善的的统计学。人类个体多样,决策机制复杂,用自己的行为去强制改变别人很困难,因此在商业管理领域从事分析工作时,无论身处哪个行业、哪种职业,都需要用数据来洞察、预测个人和组织的行动,进而寻找干预方法。

在笔者管理咨询工作经历中,直接或间接地看到、听到了很多运用数学、统计工具的案例,其中最常被人挂嘴边的、堪称统计学王道的方法便是“回归分析”。

回归分析能够在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化分析,是一件深奥到值得人研究一辈子,又简单到人人能够运用的强大的统计工具。咨询或者说管理工作中,我们可以运用它量化地搭建预测模型、评估模型或者导出一些系数的值,但即便是行业内的高材生,由于久疏研究,也会渐渐淡忘一些工具背后的原理和假设、忽视了每一步操作背后的实质意义,以致于在实际问题中运用时容易经不起推敲,甚至误人子弟。为了纠正管理工作者常出现的错误认识,下面就梳理、介绍一些较为常见的回归陷阱。

陷阱一:用线性回归分析非线性关系

一般统计工具默认的回归操作是线性回归,生活中很多因素之间的关联也确实是偏线性的,因此很多人建模时就习惯性地在工具中将自变量、因变量选上,然后导出结果。然而复杂的现实问题中也存在大量非线性关系,比如有规模经济效益的业务量增长与成本投入的关系、资本结构与经营绩效的关系、经济增长与失业的关系、员工年龄与流失率的关系、物质奖励与激励效果的关系等等。线性关系是互不相干的独立关系,而非线性则是相互作用,而正是这种相互作用,使得整体不再是简单地等于部分之和,而可能出现不同于"线性叠加"的增益或亏损,这时仅仅用单纯的线性回归,哪怕侥幸通过统计检验,结果也没有任何意义,甚至会引人做出危险的决策。

陷阱二:迷信P值

做过实证研究的,哪怕对统计原理一知半解,也应该知道P<0.05这个足以给研究结果判生死的指标,事实上它只是费舍尔提出的一个经验值,它的内涵通俗点讲就是“如果原假设是正确的,出现观测样本这种情况的可能性,如果低于5%,那就可视为小概率事件,拒绝原假设”。通过P值检验并不代表变量间的关联度就有多大(significance在中文中被称作“显著性”,这种说法常常引起人们对其内涵的误解),未通过也并不意味着你所搭建的模型就一定不成立,很可能只是样本量不够、数据质量不佳罢了,事实上增大样本量确实是降低p值的有效手段。美国统计学协会

2016年专门发布了官方吐槽,认为P值已经遭到了相当程度的误解、迷信和滥用,有调查表明约有三分之一的号称有统计学差异的P<0.05的研究结论都是错误的。这种迷信和滥用主要表现在:1.认为P值代表假说为真的概率率;2. 忘记了“合理的推断过程需要完整的报告和透明度”,觉得只要把P值放出来就大功告成;3. 仅仅用P值来得出科学结论、商业决策或制定政策。

因此,成功的科学决策取决于很多方面,包括实验的设计,测量的质量,外部的信息和证据,假设的合理性等等。仅仅看P值是否小于0.05是非常具有误导性的。对于在商业管理领域应用统计方法的我们,毕竟不是在做自然科学研究,在有充分外部证据以及对假设的信心时,适当放宽P值门槛也没有问题。

此外,统计学研究方法并不只有一个P值,还有诸如95%可信区间、伪发现率、贝叶斯分析方法等大量的统计学方法指标,可以用做P值的补充或者替代品。一定程度上的联合运用有助于弥补各个方法本身的漏洞,使得结论更为可信。

陷阱三:显著但应用价值不大

商业管理领域很多问题的影响因素都非常多非常复杂,说实话不是很推荐在资源有限的情况下去尝试通过回归分析建模。

R方的含义是预测值解释了因变量的方差的多大比例,衡量的是预测值对于真值的拟合好坏程度。对于做学术研究的人来说,找到一个显著的影响因素,哪怕R方不是太大,即对结果的解释力度不是很大,也算是一种学术贡献。但在商业应用中,我们需要找到影响力度足够大的那个因素或那一系列因素,并以最小的管理成本去进行干预,对结果变化影响甚微的所谓的模型再显著也没有太大的应用价值。

陷阱四:缺乏对因果关系的深入探究

“因果”是个大命题,看似回归分析成功导出了一个结果,也不意味着因果关系就必然确定了。一个古老的谬误是:如果B紧跟着A出现,那么A一定导致B。比如有的管理者曾费尽周折探求抽烟越多是否就越会导致员工绩效变差,研究的结果似乎也给了肯定的结论,但此例难道不能是相反的解释吗?也许正是因为绩效变差才促使员工压力更大、抽更多烟呢?

要弄清楚因素之间的作用机制,我个人认为至少在复杂的管理领域就很有必要考虑是否可能存在调节效应或者中介效应,以此找到真正有效的干预目标。当然也很有可能的是所有变量互相间均没有任何影响,只是有一个第三因素恰好能影响这些变量,比如A销售公司收入与某产品价格同步上涨,很可能只是因为全国物价水平上涨了,而非存在内幕关联。此外,必须避免出现因果倒置的情况,典型的例子就是拿失业率预测GDP,通过回归分析很可能会得出降低失业率能促进GDP增长的结论,但事实上真正的作用机制应该是通过促进GDP增长来降低失业率。甚至于,因果关系有时候是双向的,比如某地K12教育投入和经济增长的关系,我们既可以说K12教育的发展推动了经济增长,也可以认为只有经济水平高的地方才有钱在K12教育领域投入更多资金,还可以说K12教育支出推动了经济增长,从而为进一步增大教育投入提供了可能,即互为因果。这里的关键就在于尽量避免使用受结果影响的因变量,不然因果的方向将无休止地争议下去。

陷阱五:选取的自变量相互之间高度相关

当两个或两个以上自变量彼此间高度相关时,回归分析的结果将可能无法分清每一个自变量与因变量之间的真实关系,这种情况在统计学中称为多重共线性。比如在引入财务变量时,常有人将总收入、营业收入、主营业务收入等一系列指标均导入工具跑回归,事实上这些都是反映收入规模这一因素的变量。当变量较多时,我们主观上未必能识别出所有变量之间的关系强弱,所以多重共线性是很容易发生的,研究者一定要对此足够敏感,先用数据检验变量间的相关性,再通过变量取舍、创造新的综合性变量或直接通过逐步回归等方法来尽量消除多重共线性。

陷阱六:变量过多

有些人担心遗漏重要的因素,会将大量可获取的变量加入回归分析,以期得到完美的模型。然而当变量过多,尤其是无关的变量过多时,回归的结果反而容易被稀释。当回归中加入了过多无关变量,总会有一个两个恰好显著性水平达标,那研究者往往就会花大量精力去事后解释这些看似有用的、具有统计意义的因素,徒增成本。

陷阱七:脱离数据进行推断

严谨来说,回归分析的结论仅仅是对与所分析样本相似的对象有效,未必能泛化到更广阔的群体。比如我们依据一家单位总部员工的数据搭建了一个模型,得到的各个系数,甚至适用的变量都不一定能直接应用到下属单位、外地单位、其他业务线。还有常见的就是考虑到获得方便,只拿行业内上市公司的数据进行分析,但每个行业内的上市公司只是少数经营得好的代表,回归分析前必须充分考虑分析结果是否能够泛化到自己想论证的假设。

陷阱八:缺乏严格的统计诊断

统计诊断是数据分析的重要组成部分,是对实际问题中收集起来的数据和提炼出来的模型以及由此出发所作的推断方法的合理性进行细致的分析,并通過一些诊断统计量来检查数据、模型及推断方法中可能存在的“毛病”,进而提出“治疗”方案,也就是说对统计方法解决问题的全过程进行诊断。诊断的要点主要就是:1.模型或假设是否合理;2.数据与模型是否大体一致;3.是否有异常点、强影响点、高杠杆点;4.数据或模型的扰动对推断的影响如何;5.是否需要作数据变换以及如何作变换。对非统计科班出身的经营管理者来说,统计诊断或许是陌生的概念,很多人做回归前甚至都不会考虑以上这些问题,但这些问题的存在都是有可能撼动模型基础的,严格的诊断十分必要。

陷阱九:缺乏严谨的抽样策略

调查数据有一个显著特征,即一般情况下都存在一定误差,管理活动中想获得高质量的、以人为调查对象的数据是比较困难的,要将人的主观因素干扰降到最低限度不仅仅需要与人打交道的艺术,还需要在技术上设计科学的抽样策略。

在选取数据时,一定要想清楚目标对象的内部结构(确保能对总体有足够的代表性),综合测算抽样误差和抽样成本后,最优化地选择简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样等。此外,一定要避免非概率抽样,即根据自己的方便或主观判断抽取样本的方法,方便抽样、滚雪球抽样均属于非概率抽样,这是在抽样实践中常常被人忽略的问题。

另外在抽样中,如果我们建模的数据是通过问卷调查得来的,那问卷的话术和设计思路也必须严格起来,引入心理测量学的方法提高问卷信度和效度。

虽说有以上陷阱影响分析的结论,回归分析依然是非常棒的统计学工具,但用数据说谎很容易,让数据说真相缺很难(事实上,统计学的内在原理并没有那么直观和易理解)。因此在使用时一是要想清楚选择哪些变量、如何收集数据;二是必须以观察样本为立足点(其他大部分统计推断也是同样道理)。总之,作为商业管理领域的从业者,我们在运用统计科学解决现实问题时既不能盲目依赖便利的工具凭感觉搭建模型,也不能盲目迷信数据而忽略了对事实情况最起码的观察和理解。

参考文献:

[1]查尔斯·惠伦. 赤裸裸的统计学[M]. 中信出版社,2013. 11.

[2]西内启. 统计思维[M]. 浙江人民出版社,2017. 12.

[3]金勇进. 抽样:理论与应用(第二版)[M]. 高等教育出版社,2016. 1.

[4]黄江宁. 统计学在现代企业管理中的应用[J]. 统计与管理,2016,(08).

[5]毛青. 论现代企业管理中统计学的应用[J]. 民营科技,2013,(01).

作者简介:顾金鸣(1993.1—),男,汉族,江苏苏州人,硕士研究生学历(在读),中国人民大学研究生,研究方向:管理统计学。

猜你喜欢

统计回归分析数据
公路工程试验检测存在的问题及措施
基于变形监测的金安桥水电站坝体稳定性分析
一种借助数据处理构建的智能食堂管理系统
2008—2015我国健美操科研论文的统计与分析
山东省交通运输投资计划管理信息系统的设计
森林碳汇影响因素的计量模型研究
河北省城镇居民人均可支配收入与消费统计分析
市场经济背景下的会计统计发展探究
浅谈计量自动化系统实现预购电管理应用
河南省经济增长质量与创新能力关系的实证分析