利用质量保证框架改进数据质量
2018-12-07孟昭青
编者按
本文原载于2018年5月的《质量世界》(Quality World)。作者大卫·巴罗斯(David Burrows)是《质量世界》杂志的特约撰稿人,鲍勃·休斯(Bob Hughes)是坦普尔质量管理系统公司的主管,长期从事对制造组织质量数据的管理。在跨行业数据收集新技术出现之后,大量数据雪崩式涌现,组织面临的挑战是如何保证数据的质量。本文分析了各种规模和复杂性的组织都面临的数据质量问题,介绍了如何用一个良好的质量保证框架来改进对数据的分析。
阿尔伯特·爱因斯坦有一句名言:“信息不是知识。”他的话一针见血。你可以随时获得信息,但如果它们的质量很糟糕或者你不知道如何解释它们,那它们就是无用的信息。
成功的企业以了解其运营、市场和用户群而自豪。技术进步意味着不缺乏可用数据,但对于复杂的组织而言,如何确保所收集和分析的数据质量足够好,从而推动企业向前发展?
2016年,IBM研究发现,质量糟糕的数据每年使美国经济损失3.1万亿美元。这足以购买苹果公司和谷歌公司,而且超过了英国和泰国的国内生产总值之和。
2017年,研究和咨询公司高德纳在一份报告中得出结论,质量糟糕的数据每年平均使组织遭受970万美元的财货损失。
组织高质量的数据
随着信息环境日益复杂,这种情况可能还会恶化。不同规模和复杂性的组织都面临数据质量问题。那些拥有多个业务部门以及在多个地区开展运营和拥有众多客户、员工、供应商、产品的组织,将不可避免地面临更多的质量挑战。正如坦普尔质量管理系统公司的主管鲍勃·休斯所说:“大型公司,特别是制造商发现组织高质量的数据非常困难。当制造业蓬勃发展时,如果它不是‘迫在眉睫的问题’,那么就不会得到解决。”从本质上讲,有效的数据管理并没有被视为一个需要即刻关注的问题,甚至可能会无意识地被置于次要位置。
业务支持公司Exemplas的商务总监马尔科姆·威廉姆森也持类似的观点。他认为,将大量数据有效地组织成一个连贯、集中且直接有益于企业的东西是一项挑战,同时也是许多公司竭力回避的挑战。
那些没有设法应对这一挑战的公司可能会付出沉重的代价,因为质量糟糕的数据无疑会影响公司的绩效。其他的负面影响还有很多,包括风险管理无效、纠正措施错误、管理审查信息不足以及内部审计控制不力等。
假设一个公司确实将数据管理视为优先事项,那么它又如何确保其数据质量呢?
休斯的答案是:“通过数据的完整性和内部审计的质量。”并补充道,培训将为此提供保障。“培训涵盖有效的沟通和认识,确保人们了解输入不准确数据的后果。”在很大程度上,大数据改变了商业格局。大数据是宏大的数据集,对其进行分析可以揭示相关模式、趋势和链接,尤其是与人类行为和购买习惯有关的内容。正如休斯所解释的那样,与大数据相关的质量保证挑战与公司可用信息的水平和复杂性有关。他说:“问题是要从中得到你所需要的东西。”
IBM的大数据和信息治理专家彼得·韦斯顿回应并解释说,很多公司现在已经被混乱的信息所淹没。“多年来,公司拥有了大量易于存储和访问的结构化数据库。如今的后网络时代,除了结构化数据,还有大量的非结构化数据。”
韦斯顿以那些必须响应新通用数据保护法规(GDPR)的银行为例。“以前,银行只需要关注存储在数据库中的账户详细信息、交易等结构化数据。现在,根据GDPR的规定,他们需要分类和存储大量非结构化数据,例如客户通过电子邮件发送给银行的信件等。”
一家银行使用IBM的StoredIQ套件(一种数据管理软件,允许组织识别并处理非结构化数据,而无需将其移至专业应用程序),来查找非结构化数据并对其进行分类。虽然它被证明是一项有价值的应用,但也带来了额外的挑战。韦斯顿说:“该银行的回应是‘我们没有意识到这些数据是如此的丰富,现在我们必须考虑对其进行更高程度的加密,以确保其安全性’!”
了解当前的数据
从冗余和过时的数据中识别有用和可用的数据可能非常耗时,可以先从了解数据质量的当前状态开始。重点还应放在选择支持正确业务成果的绩效指标上,明确一个衡量业务改进的目标并确定期望获得的收益。
在某些情况下,公司可以直接聘请数据专家来管理业务数据,有些公司会寻求第三方专家的帮助。韦斯顿概述了外包的利弊:“在中小企业市场中,存在购买数据管理服务的趋势。这样做的好处是你不需要投资很多系统;不利的一面是,虽然基础数据不会被共享,但第三方供应商可能会将一些分析见解透露给竞争对手。”
毫无疑问,良好的质量保证框架可以改善数据分析。但正如休斯所解释的那样,只有从上到下明确定义了一致的方法,才能实现这种情况。“它必须由领导层推动。他们必须提供确保收集适当的数据并实施正确改进的动力。”
鉴于沟通和认识是质量保证的关键要素,特别是全球化公司不可避免地需要克服相关障碍。例如,语言、时间障碍,以及如何决定最有效地使用媒介(实时通讯、电子邮件、面对面会谈等)与广泛和多样化的人群进行交流等。
质量专业人士如果希望确保组织数据的质量,可以将正确的工具纳入他们的流程,更轻松地完成工作。休斯以统计软件包Minitab为例:“现在很多组织都在使用Minitab。它的功能比Excel更多,是一款专业的数据分析软件,可以生成详细的图形和图表,使信息更易于理解。”
清晰的沟通
即使公司在软件系统和数据专家身上花销不菲,与整个公司的主要利益相关者进行沟通,对于良好的质量保证框架仍至关重要。如果信息集处于不同的孤岛和不同的治理之下,那么工作的开展会很困难。
韦斯顿认为,这些数据专家不应仅仅是有价值的信息和洞察力的管理者,也应是在董事会层面提供可信和易懂信息的人。
他说:“公司内部的决策过程从一端的直觉反应到另一端的以证据为基础,所有的执行决策都在该范围内。如果高级管理层能够了解数据的属性,他们可能会更信任它并做出基于事实的决策。”
最近在伦敦召开的数字大师圆桌会议上,共同的观点是数据专家需要更多地融入公司,以充分利用他们的技能和效能。会议(包括来自埃森哲、ASOS、巴克莱、博柏利、柯莱特集团、eBay、益百利、脸书和保诚集团的代表)得出的结论是,数据专家与产品经理一起工作将会更清楚地了解彼此的角色。
如果两者能够更紧密地联系起来,那么挖掘和解释有意义的数据就不那么困难。然而,对于新时代企业以及那些因并购活动而存在遗留问题的企业而言,实现这一目标将更具挑战性。
虽然跨国公司可能有实力雇用一支技术熟练、薪酬丰厚且受欢迎的数据科学家团队,来解决数据质量问题,但大多数中小企业都希望采用引入质量管理软件和培训新员工的方法,但这可能会带来人员问题。
休斯解释道:“许多公司正在投资并使用统计过程控制软件来监控数据。这样做的优点是效率远远高于手动数据输入,缺点是这些项目需要技术能力。当受过培训的员工跳槽到另一家公司时,公司会面临商业秘密泄露的风险。”
遵守质量标准
企业现在处于数据驱动的文化环境之中,他们意识到质量数据对于推动企业发展至关重要——无论是制造商的更高生产率、银行的合规性还是零售商的动态定价。软件质量保证(SQA)在维护数据质量方面发挥着至关重要的作用。SQA是一种监控软件工程流程的方法,用于确保软件质量。它与ISO 9001:2015等标准有着内在的联系。
随着遵守ISO 9001:2015的最后期限逼近,许多公司在最后时刻才匆忙投入时间和金钱。尽管有3年的准备时间,休斯认为,随着2018年9月的截止日期的到来,一些公司可能会失去认证资格。
休斯说:“ISO 9001:2015是对ISO 9001:2008的必要更新。从我们看到的情况来看,对于那些没有优先考虑它并且很晚才接触它的公司来说,还有很长的路要走。”
SQA不仅可以监控收集的数据,还可以监控用这些数据所做的事情。如果数据没有被用于改进业务,那么最终将不会通过认证。
数据过载
休斯指出,要保持竞争力,公司必须从内部管理质量并使用数据来提高绩效。“公司不能只是一味提高价格,他们必须确定哪些地方还可以提高质量。这将增加流程的价值而不是成本。”
当然,增加价值意味着要尽可能多地了解业务和市场/客户,当存在太多不可靠或无关紧要的数据时,这通常会难以实现。韦斯顿解释道:“研究表明,20%~40%的公司数据可以完全删除,它们是冗余、过时和琐碎的。从本质上讲,它们根本没有商业价值。”
韦斯顿补充说,通常收集的数据只有25%具有商业价值(见图1)。但即便是这样,也有一个问题,即它是否采用了可接受的格式。例如,所有的员工序列号都是六位数吗?或者如果系统中出现了5个相同的姓名,是否意味着重复?数据收集系统中是否还有任何缺失的字段?
图1 数据价值统计
人工智能
我们经常听说人工智能的巨大好处。显而易见,它有能力承担数字运算和统计分析的苦差事,并加速整个过程。另外,人工智能在提高数据质量方面也可以发挥非常重要的作用。但在目前情况下,许多企业还无法充分利用人工智能。
正如韦斯顿所说,组织关注人工智能并看到了更深入了解客户的机会,甚至会超过客户对自身的了解。像亚马逊和网飞(Netflix)这样的公司就是很好的例子,它们应用“猜你喜欢”的概念——如果你喜欢那个产品,那么你可能也会喜欢这个。
韦斯顿补充说:“数据科学家面临的最大问题是找到适合他们模型的质量数据。他们需要可信任的数据,否则他们的模型可能会做出错误的决定。”例如,有人通过有瑕疵的数据获批了信用卡。
人工智能有明显的好处,IBM等公司正在将人工智能纳入他们提供的数据质量产品中。韦斯顿说,这意味着,基于添加的新数据集,人工智能将自动向特定目标人群提出建议。例如,它可能会自动向公司的营销团队发布信息:“这是你应该用于营销活动的数据。”
那么,另一个问题就出现了:鉴于公司越来越多地使用自动化流程和先进技术,人未来在确保数据质量方面将扮演什么角色?
毫无疑问,这一工作仍然需要人类参与——因为人工智能旨在增强而不是完全取代人。正如韦斯顿指出的,那些具有正确技术知识的人将使用机器学习,然后在人工智能的辅助下提供好的商业洞察。用国际象棋传奇人物加里·卡斯帕罗夫(1997年曾试图击败超级计算机“深蓝”)的话说:“不要害怕智能机器,和它们一起工作。”
前方的路
无论是采用人工智能还是雇用数据科学家来整理和解释大数据带来的大量信息,质量专业人士的格局在过去10年中已经发生了巨大改变。在客户期望方面,无论是交付还是服务,互联网已经改变了游戏规则,周转时间变得更快。
公司需要了解客户的需求——“他们希望何时以及如何交付”,并预测他们将来可能需要什么。在如此快节奏的环境中,竞争优势变得至关重要。但如果没有可信赖并且基于有意义指标的高质量数据,公司可能会发现自己成为落伍者而不是领导者。
案例分析
有时候,通过第三方分析大量业务数据,然后根据这些信息采取行动,可以带来实实在在的回报。例如,IBM与某葡萄酒厂(世界上最大的葡萄酒厂之一,总部设在美国)合作。IBM对这项业务进行了非常详细地了解,研究和解释了大量内部数据。
IBM帮助该酒厂在种植园布设了庞大的监控设备网络,几乎遍及每株植物。这些监控设备使种植园能够定制浇水和施肥计划,使作物产量和质量提高40%以上,并让使用水量减少30%以上。
通过使用现有的生产数据并分析浪费最明显的地方,该公司得以改造其业务。随着越来越多的公司看到这样的实际利益,更高质量的数据管理将被视为必要选项。
(孟昭青 编译)