深度挖掘
——新的统计方法帮助人们更有效地了解过程、建立模型
2017-04-26
深度挖掘
——新的统计方法帮助人们更有效地了解过程、建立模型
编者按
一种新的统计方法可用来研究过程,即观察、检查、分配、回归和自然选择法(5个单词的首字母缩写为LEARN);该方法结合了成熟的工具,在不需要高等数学的情况下,能够打造强大而且简单的模型;LEARN方法可以通过查找和应用增值信息将数据结构化为线性拟合。这种新的统计方法帮助人们“深度挖掘”。
随着对数据的日益重视以及数据实用性的提高,人们对有意义的且可用的分析充满了更多期待。如今的决策者越来越需要从所有的数据中提取价值。单个系统及多个系统中的过程都应被清晰地描述,并易于理解,从而实现回归分析,并对来自稳定过程的历史行为进行建模,从而最好地预测未来的绩效表现。
有了如此多的现成数据,我们可能会产生错觉,认为所有准确的数据都唾手可得。可一旦预测变量和响应变量之间几乎没有任何关系,或数据缺乏重要参数时,都会使数据决策者对模型的预测能力包括主观评价感到不满意或不解。
这样的情景听起来是不是感到很耳熟?你的老板有理由不接受这样的分析。他期待一个简单有用的模型来提供对未来绩效的洞察和分析,但得到的却是一个输入与输出之间缺乏足够相关性的回归分析。这就意味着预测能力值得怀疑,因此他对未来的分析也就会更多地包含警告而不是声明。
“你让我拿这些数据怎么办?这也不比使用平均值好多少啊。”老板如此尖刻的批评迫使分析师又加入了更多输入,以此提高模型的可决系数。几番来回,在一段紧张的日子后,模型最终演化成了复杂而繁琐的东西,充满了高阶、非线性和多重共线性。
当你解释逻辑回归时,老板的眼睛只会呆滞地转上两分钟。这并不是说高阶、非线性或逻辑回归的方法不好,而是这些东西出现的时间和地点不对。它们会让人备受打击。虽然分析师制作了详尽的、由现有数据支撑的统计评估,但老板要求的却更多。分析师的内心在暗暗尖叫,“如果我能做得更好,那我早就做了!”
图1 LEARN方法
数据信息越好,分析成功的程度也会越高。即使高等统计的数据也是与表示过程的数据相关联的。幸运的是,稳定的过程通常已包含有助于减少变异的特性。
如图1所示,观察、检查、分配、回归和自然选择法(LEARN方法)与经过验证的工具相结合,能够产生出功能强大而简单的模型,而无需高等数学。通过制定更丰富的输入产生分析输出,LEARN方法可以帮助你满足老板不断增长的期望。那些拥有大量数据、数据易于获得、范围较严格的项目(如优化机器设置),最好运用DMAIC方法(即定义、测量、分析、改进和控制),以及可靠而直接的六西格玛方法。
但不幸的是,通常只有当领导们表示出对模型的不满意且没有其他可用数据能让一切好起来时,回归分析才会暴露出数据的种种局限。LEARN方法可被当作事后的补充方法,以充实现有的信息。
在过程中应用LEARN方法。例如,某公司副总裁负责监管11个部门,而且要为一个新的项目估算人工小时数。员工虽有一些流失,但基本没有太大损耗,所以她的组织在过去5年里相当稳定。根据图2中的评估,她得出结论:她需要更好的预测性。
图2 初始图缺少期待的可预测性
图3 将LEARN方法与传统过程流融合
她认为模型总的来说和数据匹配,但她怀疑所在组织(也称为过程或系统)不可预测。其实,她所在组织可能并不是真的不可预测,而是选出来代表组织的数据不可预测罢了。
虽然副总裁估算的必要精度已经超出了图2的能力范围,但数据就是数据。图3延伸了选择数据、分析流程的传统,而将LEARN方法引入其中。图3最终可能会倒退到初始评估。本文的其余部分将会通过图3来假设数据的不足。
LEARN方法的目的是产生足够多的数据(甚至可能比足够还要多),以消除投机或编造的信息,并进一步地剖析数据,以揭示更深的过程特性。
图4 一个可能实现的理想拟合图
从全新视角进行观察
观察阶段始于定位合适的主题专家(SME),而不是单个分析者,以此来丰富扩充信息、用于额外的分析。主题专家为初步的统计评估增加了系统工程要素。
最适合支持LEARN方法的主题专家通常是熟悉系统级交互的高层人员以及老练的流程负责人。专家团队通过系统地组合数据,或更常见地分解现有数据来丰富信息。我们希望团队能够顺利走过团队融合及会议管理的各个阶段,即形成期、震荡期、规范期和执行成长期,还希望多学科的主题专家们能在过程中相互理解、互相帮助、成长共生。
观察阶段的任务是全面了解与过程相关的过程和数据。这种了解使我们能够对数据输入的要素进行后续讨论,从而对过程产生更加深入的理解。而且比起当前的输入,这样的做法会为模型带来更多价值。
观察阶段首先是绘制流程图,简单组织初始的数据,如表1中的前两列数据,并以团队的形式对数据进行讨论。这些数据本身并不能提供回归分析以外的潜力,这远远低于副总裁的既定目标。这些数据所创造出的是以事实为基础的分析,但却不能用来进行创造性的推测。
系统地讨论现有数据,如它如何反映过程、过程如何产生数据以及过程为什么会产生其所产生的数据。了解表格中的关系:行内的信息表示系统内的行为,而列内的信息表示系统间的行为。通过查看散点图、箱线图和帕累托图来继续对数据进行探索,还可以开展更简单的线性回归,以此涵盖不同的变量并挑选出其中最好的变量。以上所有活动都要以团队的形式进行展开,团队应该在观察阶段结束前做好充分准备,以讨论增强数据的各种方法。
表1 案例中的关键数据
检查过程,而不仅仅是数据这个阶段的任务是从混乱中创造秩序。现在团队已经开始熟悉起来,并做好了进一步描述过程特点的准备,在此过程中他们很可能经历震荡阶段。
在初始数据集里,改进模型所必需的特性很不明显。如果明显的话,它们会被用于原始分析。通过在观察阶段用心地应用获得的知识,这些特征得以展示或被进一步加工。检查阶段有两个主要目标:
1.计算产生理想回归线所需的每个初始数据点的倍增因子(即R2=1)。原始数据显示在表2的第3和第4列中。图4将R2=1作为改进模型的起点。这个理想图并不是最终目的。它既不是预定义的,也不是具体的,而仅仅是模型开始演变的总体方向。
2.我们要确定使数据点指向理想线的过程特性,同时不损害对过程或模型的完整理解。这个过程并不是要对一些对过程毫无意义的数据产生幻觉,误以为模型良好而有活力,而是要揭开合理的特性,特别是稳定过程的特性,从而减少数据点与理想曲线之间的差距。
过程特性通常包括独立变量。这意味着沿x轴的调整,如图4所示,这种做法非常有意义。因为表1中的人工小时数是具体的,而预测变量(即总数内部的影响关系)是不确定的,需要更多细节来解释范围和水平上的细微差别。
通过进一步找出x轴上独立变量的特性来产出理想图,还需要额外的数学步骤,因为斜率是由Δx/ Δy来决定。从传统的点斜率公式开始入手:将截距排除不计,由此产生理想模型的方程式为强制截距通过原点,需要正当的理由,应证明如下:
•截距项在理想图的回归分析中不显著。
•理想图对零刺激的响应为零。
国有林场半专业化劳务派遣森林消防队是国有林场扑救森林火灾的应急补充力量,是县、乡专业森林消防队伍的得力助手。在今后的工作中,要进一步探索国有林场半专业化劳务派遣森林消防队建设管理新路子,从人员管理、培训教育、制度建设、物资保障、实战考核等方面入手,强化组织管理,建设一支素质高效,作风过硬,纪律严明,英勇善战,在扑救森林火灾中起到重要作用的新型国有林场半专业化森林消防队伍。
•斜率在所有点都相同。
将表2里的总子系统设为y,人工小时数设为x,则Δx/Δy为0.06974。项目1的理想点为:
然后,计算每个项目理想的倍增因子:
其中分母中的常数10调节了改进拟合所需的总倍增因子的值。
此信息为每个项目分配因子提供了指导。
表2 检查阶段识别的要素以及项目1的分类水平
图5 因子图——简单可预测
分配因子
分配阶段的任务是按照检查阶段得来的指导原则,为过程添加结构,并产生更好的回归分析。团队现在进入到规范和执行阶段,并通过讨论和数学计算,进一步理解和完善了每个数据点。一些改进得到了认可,而另一些被否定,相关讨论有助于进一步理清过程、加深理解。
理想图提供了一个框架,用于定义和量化数据中的区别。每个理想的倍增因子被分解为如表2第5至第8列中的要素。这些要素提供了灵活性,并为每一行数据提供了确定适当范围和粒度的单个总调整因子的方法。虽然主题专家在早期阶段就熟悉了相关知识,但定义要素时还是包含了一些试验和错误。
每个要素的分类水平、同等增量的水平都比较理想,如从0.25增至2的增量为0.25。不推荐不相等的增量,因为用它们来定位初始模型的特定数据点,效果虽然可能还行,但对于后续数据,它们却具有相反效果,或被认为是强制产生解决方案或是操纵数据。
倍增水平——在0到2范围内的所有要素,实质上都可以增加或减少数据点上的最终调整因子。调整回归方程4中的理想倍增因子,可以给最终调整因子成为理想因子的机会。分类水平的例证请参考图5。
就项目1来说,表1第1行中的分类水平产生了总调整因子,即1.75×1.50×1.25×1.25=4.1016。这个值接近理想的倍增因子:4.1612。与理想图相比,这个初始数据点的位置相当低,这就促使大家进行深入讨论,以解释差异和不符。项目内和项目之间所定义的要素和分配的因子非常合理,在过程中也得到了有效体现。这些要素和因子还改进了回归拟合,同时为每个要素的分类水平提供了定义。
回归分析
回归分析是一个强大的分析工具,也是迄今为止使用最广泛的建模方法。该方法用于将过程输出与一组输入相关联。
回归分析阶段的任务是当标准回归分析没有对过程进行充分建模时,产出一个简单(易于理解和沟通)的线性模型。这个目标并不是通过多重回归(即包含多个输入的回归)来完成的,而是通过简单的线性回归完成。为实现这一目标,检查阶段和分配阶段完成了大量幕后工作。
当LEARN方法能够正确实施时,运用回归分析其实就成为一种形式。即使不熟悉回归分析的决策者也会很容易理解表现为基本方程和散点图的输出形式。
团队对表2中标为“绘制数据”的最后两列进行了回归分析。经过有效的讨论,团队改善了回归拟合,以此证明了要素以其准确性和完整性改进了过程描述。图5显示了预测模型的巨大改进以及绘图的简单性。
要素不仅代表历史数据,而且有助于更好地描述和理解未来的项目。通过运用本项目的过程知识来定制新项目,该模型就会对预期人工小时数产出更精准的估算。
虽然数据报告的读者可能不熟悉“置信区间”术语,但通常我们还需要预测区间,也称为用于预测的置信区间。95%的置信区间包含了样本95%的平均输出范围。
由于副总裁对下一个项目规划感兴趣(即下一个单次观测),所以进行区间预测是适当的。根据参数情况,可能会有多个预测区间方程。由于总体均值和总体方差未知,样本量n=32支持假设的正态性,所以预测区间方程为:
置信区间公式考虑了用于预测平均值的样本变异性:
预测区间也考虑了预测单个响应相对于平均响应的不确定性,因此区间更宽。
请注意,决策者可能会设定双重标准,又喜欢R2较高,但又不喜欢由此产生的紧密区间。
最后这个阶段对于巩固理解和展示交流至关重要,并不是画蛇添足,这个阶段是工作的可信性成败的关键。大多数终端用户都与过程相关,而不是与数学相关,因为要素反映过程,所以要素必须具备吸引终端用户的常识。
这与要素如何以数学方式影响输入是有区别的。分配的分类水平必须能够满足项目内部和项目之间进行比较的问题,识别适当的要素可能不那么容易或者不明显。许多要素也可以改善模型的拟合,但却并不适用于最后这一阶段,因为它们在过程方面没有任何意义和作为。
通过扎实的工程及数学计算,团队确定了与过程相关及有影响力的方面。团队将这些特点(即要素)挑选出来代表该过程,而其他较不重要的则放弃。最终的模型可放心应用。记录每个项目的要素水平及选择的理由,分享各自的理解,并增强工作的持久性和可信度。
在描绘了32个项目的特点之后,过程变得更好理解也更加稳定。随着时间的推移,LEARN方法更加关注于维系易于理解的要素,并对新的项目进行回归分析。而副总裁的期望仅仅是对未来计划做出快速而准确的估计。
最终,异常数据点不再对因子模型的输出造成威胁,而是可以促进指明原因的调查,例如团队在发现某项目数据点较低后,将4个部门的工作进行了外包。
最后需要注意的是,初始数据集实际上是描述资源如何有效地为项目服务。分析中的主观性——即初始模型中未能解释的方差,是由于低效率(如不可预见的任务、学习曲线或倦怠)造成的。用于预测未来项目的实际人工小时数中也包含了这些低效行为。团队认为,这些低效是过程中所固有的。
LEARN方法既无法鉴别也难以量化具体的低效来源,而是通过综合人工小时数,以及投入、要素和因子的自然选择,在最终的回归阶段对其进行解释。
房间里的大象
过去,因为必要的数据不容易拿到而终止分析是可以接受甚至是可以预见的,但这种日子一去不复返了。“失败再加上一个好借口”式的以营销论英雄的日子也被取代了。如果问题容易的话,其他人早就解决了,而高级管理人员也不必再给专家打电话。虽然传统评估看起来拥有广泛现成的数据,但LEARN方法却更深入探索了数据中的有效关系,同时还不影响分析的完整性。
持不同观点的人会将本方法描述为一种强制形成解决方案,并使数据曲意迎合的方法。而事实上,LEARN方法并不强制形成解决方案,而是通过发现和应用增值信息将数据结构化为线性拟合。
是否可以通过这种方法来强制运用数学关系,使模型更好地实现拟合数据,并不反映过程实际,从而进行作弊呢?这取决于实际操作者。多种形式的描述型数学都有可能用来作弊。《如何运用统计数据作弊》一书自1954年出版以来,仍在销售。
自然选择过程中强加了制约和平衡,以确保基本因子富含信息,更重要的是使其适用于正在研究的过程。基本因子影响所有的数据点,而不仅仅是任何单个数据点,而且只有当实际数据和模型之间的差异总和变小时,模型才能得以改进。
LEARN方法通过模型拟合变好或变坏来对因子的相关性、有效性及其水平做出直接反馈。从根本上说,该方法并不总是有意识地去记录,而是通过发现正在研究的过程特征来定位模型和过程,以最好地解释两者之间的关系。